伴随数字化转型的推进,企业不断增强对数据价值的挖掘,但生产、销售等方面的数据呈倍数增长,数据量庞大,想要从中发掘出有价值的数据,还需要智能化手段。这也就要求企业在加快数字化发展的同时提升智能化水平,运用机器学习加强数据管理、提升数据识别能力等,推动数据的开发利用,促进业务的增长。同时,数据的发掘也将助力机器学习的进步,通过海量数据处理能力的提升,有效支撑机器学习的研发。
这表明数智的融合加快了数据价值的挖掘与机器学习的进一步演进,两者相互作用、相互促进共同推进企业的发展。因此,机器学习的突破可谓至关重要,是数智融合的关键一环,也是企业数字化转型中实现高速发展的重要条件。
机器学习面临高门槛挑战
机器学习的发展能够推动数智融合,以此提升企业业务拓展与抵御风险的能力,但目前想要进行数智融合却并非易事,依旧面临众多挑战。其中的主要挑战是现有门槛高,具体变现为在三个方面有着极高的成本花费与技术要求。
首先,在数据集的检查、识别与修复方面,开发人员需编写样板代码将数据集的不同部分可视化,以发现和纠正潜在的信息缺失、极值、数据集失真与偏差等数据质量问题,但这一时间可能需花费数月,成本高昂;
其次,高质量的数据是将数据应用于机器学习的基础之一,但数据质量管理是一个耗时且复杂的过程。数据工程师需花费数天时间收集数据的详细统计数字,并根据这些统计数字信息手动识别数据质量规则,将其应用于数千个数据集和数据管道,且必须持续监控数据中的错误或变化,相应地调整规则,整个过程不仅耗费时间长,且技术要求高;
再次,在机器学习中较为常见的地理空间数据,其规模可达到PB级,且可跨越整个城市或数百公里土地,数据处理极为困难,想要从完成的模型中提取预测结果,需要开发人员使用开源可视化工具,花费数天时间在地图上做渲染,庞大的数据量成为发展机器学习的碍口。
想要解决这些问题,便需要减少机器学习的使用成本,降低机器学习的技术门槛,简化机器学习的前期工作,让开发人员能够更加便捷地运用机器学习,提升数据处理能力,推进数字化转型进程。
云厂商展开多种实践进行“赋智”
促进机器学习的发展,其实是“赋智”过程。而云厂商作为企业上云进行数字化转型的服务方,也承担起了“赋智”的作用,目前也有多个实践,表现尤为突出便是亚马逊云科技,其在2022 re:Invent全球大会上推出的大量服务和功能,以为机器学习服务,帮助客户获得数据价值。
在数据集的检查、识别与修复方面,亚马逊云科技Amazon SageMaker Studio Notebook提供全新数据准备功能,能够帮助客户直观地通过几次点击检查和解决数据质量问题。
当用户在Notebook中显示data frame(即数据的表格形式)时,Amazon SageMaker Studio Notebook 会自动生成图表帮助用户识别数据质量问题,提供数据转换建议帮助解决常见问题。开发人员通过Amazon SageMaker Studio Notebook新提供的内置数据准备功能,只需点击几下即可直观地查看数据特征、修复数据质量问题,且所有这一切都直接在Notebook环境中进行,更加便于开发人员的使用。
在高质量数据管理方面,亚马逊云科技的Amazon Glue Data Quality可以自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量,将数据分析和规则识别的时间从几天缩短到几小时,且能够使用统计数字自动推荐规则,确保数据的即时性、准确性和完整性。在数据发生变化时,Amazon Glue Data Quality可自动分析数据并提出质量规则的更改建议以确保相关性。一旦出现质量问题,数据工程师无需编写代码即可配置用户提醒或终止数据管道。
在地理空间数据处理方面,Amazon SageMaker将丰富数据集、训练地理空间模型并将结果可视化的时间从数月缩短到数小时,极大地加速与简化了地理空间机器学习预测的生成。企业只需几次点击或使用API便可以使用 Amazon SageMaker访问各种地理空间数据源,同时,为加快模型开发,Amazon SageMaker 还提供预训练的深度学习模型,其支持的用例包括通过精准农业提高作物产量、监测自然灾害后区域恢复以及改善城市规划等。
此外,2022 re:Invent全球大会上发布的Amazon QuickSight Q 新功能,能够用自然语言提出问题,极大地简化了流程,降低了操作难度,让企业能够从支撑其看板和报表的数据中获得新的洞察;同时,Amazon QuickSight Q 可以针对预测结果追问预测依据,给出预测结果的主要影响因素,从而让企业格外关注那些因素,更好地指导业务。
从中不难看出,亚马逊云科技不仅仅是在推动机器学习的发展,也在充分利用机器学习技术提升功能的数据处理能力。如Amazon QuickSight Q的自动数据准备功能使用预先训练的机器学习模型,从企业现有的看板和报表等数据资产中进行学习,在几分钟内为每个新数据集预配置业务术语,从而减少开始查询数据所需的时间。
通过种种功能,亚马逊云科技缩短了机器学习过程中数据处理的时间,有效推动数据价值的挖掘,提升了相关产品的发展,加快了机器学习的发展,机器学习技术也用于数据新服务和新功能,推动数智融合,将有效加速企业数字化转型,促进业务的发展。
亚马逊云科技大中华区产品部总经理陈晓建表示,本次re:Invent发布了非常多的数据服务。从这些re:Invent发布的特性中,能够看到未来技术演进的方向是数智融合。其中尤其值得关注的是Quicksight Q,它推出了多项新功能,把人工智能和业务洞察相结合,使得客户不用再去掌握数据分析技术,而是通过人类自然语言来进行业务的洞察,从而大降低了使用门槛。
这也是云厂商在数字化时代应有的担当,Forrester 副总裁兼研究总监戴鲲评论道:“Forrester认为,在持续动荡的全球宏观经济环境下,广大企业客户亟需构建兼具韧性、自适应性和创造性的适应未来的技术战略。亚马逊云科技在今年re:Invent大会上的产品与服务发布不仅一如既往地贯彻自身以客户为中心的长期主义,而且持续彰显其作为全球公有云基础设施与开发平台市场领导者的前瞻性技术视野与快速产品创新能力。”