74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参

在数据和算法重新定义的世界中,数字化转型正构成传统企业的新竞争力,但实际被收集和利用的数据,远比人们想象中少。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参▲2014-2023年全球数据空间持续增长(单位:PB)

有效数据量少、模型开发效率低、专业技术人才匮乏,这些问题在企业应用数据分析面前形成了难以跨越的天堑。一边中国市场上超半数的企业已经采用机器学习方法,实现高级数据分析预测,另一边机器学习、数据科学的普及之路仍荆棘丛生。

在这一背景下,IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书,重新审视数据科学的定义与生态,对机器学习、数据科学在中国市场的落地现状进行全面调研。如需查阅此白皮书,可直接点击“链接”下载。

一、数据爆炸时代:加速AI落地中的困境

在大数据、人工智能等新兴技术的助推下,数据科学从常规数据分析发展到高级预测分析与智能预测,其定义正在被重新审视。

本白皮书中,IDC将机器学习与图算法为主的工作负载定义为数据科学,其核心技术即经典机器学习技术,正在企业用户中开始复兴。据IDC调研,当前中国市场上74%的企业已采用包含机器学习的数据科学平台,其他企业均表示在未来24个月内有计划采用这一平台。

在当前金融应用场景中,80%的分析预测模型采用机器学习模型,支撑预判欺诈风险、优化量化投资等业务应用。而每成功识别一笔欺诈交易行为,每准确预测一次市场行情变化,对企业的经济利益可能是百万级甚至上亿级。

还有在零售场景,随着个性化服务需求升级,更多零售企业正通过机器学习形成线下线上融合的用户画像追踪,实现千人千面精准营销,显著提升用户粘度。

数据科学在文娱、教育、电信、制造、医疗、政府等、媒体、能源、交通、地产等行业中均得到广泛应用。根据IDC提供的数据,中国企业在深度学习和机器学习方面的投入持续增加,高级数据预测分析、经典机器学习相关的市场规模在2018年达到3.0亿美金,预计到2022年将达到29亿美金。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参▲2018-2022年中国人工智能应用市场规模(单位:百万美金)

不过企业要想应用机器学习,还需先解决很多挑战。

首先,数据准备和建模耗时长。其次,数据资源严重匮乏。IDC调研发现,目前只有一线互联网公司拥有超数千PB级别数据,大部分企业的数据量仅在1TB-20TB之间。另外企业积累的大部分数据不能直接用于模型训练,被注入到AI模型的数据不足1%。此外,数据科学工作负载开发效率不高。许多刚涉足机器学习应用的企业,对底层算力和基于硬件的优化缺乏清晰的认知,尚未意识到加速计算给企业开发效率带来的价值。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参▲企业采用加速方案后的效果

要在应用机器学习时绕开这些瓶颈,选择合适的数据科学平台则至为关键。

二、数据科学平台选型:门槛低,速度快

IDC在白皮书中,就平台选择的考量因素给出许多具体可行的建议。

例如使用机器学习平台开发模型时,应与企业实际业务需求充分匹配。

IDC发现,大部分企业已采用加速方案,其中采用GPU加速的居多,占比达50%

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参▲企业采用机器学习平台时使用到的加速方案情况

其中,英伟达在2018年10月推出RAPIDS开源GPU加速平台正得到越来越多企业的应用。

英伟达RAPIDS平台致力于加速大规模数据分析和机器学习工作负载,该平台建立在英伟达CUDA-X AI平台之上,提供了一系列面向机器学习、深度学习和高性能计算的专用GPU加速库,这些库与英伟达Tensor Core GPU无缝地配合工作,可加速从数据准备、模型训练到预测的整个端到端流程,大大提升AI任务执行效率和模型精度,同时降低基础架构TCO

当前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用英伟达RAPIDS平台加速数据科学研究。

三、应用无处不在,精度效率双提升

从应用角度来看,在国内金融、零售、云计算等多个行业场景中,RAPIDS均已展现出色的加速能力。

1、案例一:提升端到端量化投资预测效果

在金融领域,如何提升开发效率是量化投资工具面临的主要挑战。

宽邦科技打造的AI量化投资平台BigQuant旨在让金融业务人员都能零门槛地使用AI提升投资效率和效果,每月为金融机构和10万C端用户提供数百万次机器学习模型训练。

采用英伟达RAPIDS平台后,其GBDT模型在特征工程提取环节速度提升100倍,聚类算法速度提升200倍,同时系统预测准确度也得以提升。 

2、案例二:显著提升理赔审核能力

银行做信用评分时,通常用XGBoost在Spark上进行运算,完成一次端到端模型迭代一般需要几天,新的用户行为特征也不能实时更新到模型训练中,会影响后期的精度。

平安科技引入英伟达RAPIDS在英伟达DGX-2超级计算机上进行模型运算,将模型运算速度提升40倍,模型训练时间从周压缩到分钟,不仅大大节省人力成本。

平安科技副总工程师、联邦学习技术部总经理王健宗表示,RAPIDS平台“不仅大大提升了效率,对于精度的提升也指日可待”。 

3、案例三:大幅提速数据准备

云计算厂商也在借助RAPIDS平台提升任务执行效率,国内首家提供RAPIDS加速库服务的公有云厂商是阿里云。

机器学习算法往往产生大量数据传输,至今仍难以实现并行化。随着服务器系统引入GPU加速的机器学习算法以及NVIDIA NVLink、NVSwitch等技术,模型训练现可轻松分布在多个GPU和多个节点间,几乎不会产生延迟。

实例上,使用GPU加速的XGBoost训练任务可提速20倍以上。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀【附下载】| 智东西内参

结语:加速数据分析正渗透到更多行业

数据科学应用的程度正拉大企业间的竞争差距和收益差距,数字化程度好的银行、航空公司、酒店等机构,收入及税前利润明显高于数字化落后的同类机构。

企业如果不想在智能化趋势中落后于人,不仅希望有更易上手的数据科学平台,而且需要采用更好的加速方案来缩短开发周期。

IDC预计到2021年,90%的新智能系统将嵌入以决策为中心的加速计算架构,能自动检测和评估当前形势并作出应对决策。这将帮助更多企业优化生产效率,更为游刃有余地去适应客户需求以及竞争环境的快速变化。

如需查阅此白皮书《数据分析新速度:加速数据科学转变成商业洞察》,可直接点击“链接”下载。