凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

智东西(公众号:zhidxcom)
作者 | 杨畅
编辑 | 心缘

智东西12月12日报道,在百度WAVE SUMMIT+2021深度学习开发者峰会上,百度给开发者带来了一个重磅的“双12”大礼包。

在这次峰会上,百度发布了其深度学习框架平台飞桨(PaddlePaddle)的最新全景图,并推出飞桨产业实践范例库和大航海计划2.0。

飞桨产业级深度学习开源开发平台迎来最新发布,升级开源框架和产业级模型库,发布3个硬件适配统一方案;飞桨企业版模型部署能力也迎来升级,拥有了3大新特性,飞桨在峰会上还推出了EasyDL桌面版。

此外,国家电网上海电力公司调度中心副主任肖飞、中科院计算机网络信息中心人工智能技术与应用发展部主任王彦棢、网易云音乐机器学习平台与框架负责人段石石等人分享了飞桨在产业生态、人才培养、开源共建等方面的最新进展。

一、飞桨最新全景图发布,亮出飞桨开源框架V2.2

通过结合技术发展和飞桨的实践,百度首席技术官王海峰认为,目前人工智能呈现出融合创新和降低门槛两个方面的特点。

融合创新方面,首先是知识和深度学习的融合,其次是跨模态多技术融合,第三是软硬一体融合,最后是技术与场景的融合,飞桨在这几个方面都持续进行优化。

降低门槛方面,第一从技术角度,飞桨可满足不同开发者需要;第二从工具平台角度,飞桨打造了推理部署工具链,让部署更便捷;第三从生态角度,飞桨为开发者准备了产业级案例库等加速企业智能化升级。

那么具体,飞桨近半年具体有哪些升级?

1、发布飞桨产业实践范例库,大航海计划升级到2.0

峰会现场,百度集团副总裁吴甜谈道,飞桨到现在已经凝聚了406万开发者,创建了47.6万个模型,服务15.7万家企事业单位。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

吴甜宣布飞桨发布最新的飞桨全景图,文心大模型系列模型加入到飞桨的产业级模型库当中。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

飞桨新发布了飞桨产业实践范例库,都是从真实场景中提炼出来的,通过完整的代码实现,给用户提供详细的过程解析,最终帮助开发者们直达项目落地。

吴甜以火灾/烟雾检测场景为例,飞桨产业实践范例库的内容全览分为5步。第一步是场景分析,通过对场景中的问题定义,难题和关键点分析,锁定问题;第二步是算法选择;第三是模型训练及调优;第四步是推理部署;第五步是集成与上线。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

目前,飞桨产业实践范例库覆盖10大行业,22个产业高频场景。

百度还带来了飞桨大航海计划2.0的发布,增加共创计划,共创计划分为三个方面。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

第一是以飞桨平台为基座,社区开发者共创工具、模型、产业案例与实践经验。

第二是形成产业创新需求对接平台,共创产学研用正循环。

第三是与更多合作伙伴一起建设人工智能产业赋能中心,共创区域创新生态。

2、发布飞桨开源框架V2.2,包括4方面特性

百度深度学习技术平台部高级总监马艳军分享了飞桨产业级深度学习开源开发平台最新发布。

马艳军说,今年上半年开始,飞桨开源框架进入2.0时代,今天发布的是2.2版本,分别涉及到开发、训练、文本领域的全流程以及多层次、低成本硬件适配方案来赋能硬件生态圈等四个方面的最新特性。

飞桨新增100多个API,覆盖了更多的计算场景,并对全部API进行了高性能的实现,飞桨还保证向前兼容。

训练方面,飞桨新推出的是端到端自适应大规模分布式训练,动态感应硬件资源的变化。

升级后的飞桨开源框架以四大特性加速文本任务全流程,分别是端到端文本处理、预训练任务加速、生成任务解码加速和训推一体部署体验,例如在产业级部署时,代码可以减少94%,减少代码文本量。

马艳军还介绍了飞桨新推出的硬件适配统一方案,3个技术方案分3类,第一类是算子的开发与映射,第二类是图(Graph)的接入,第三类是编译器后端的接入,具体包括Kernel Primitive API、NNAdapter和神经网络编译器CINN。

Kernel Primitive API方案,将底层Kernel开发工作进行封装和抽象,开发者编写更复杂Kernel时,可利用底层封装的Kernel,使计算更简洁,加速Kernel开发,降低算子适配成本,代码得到高度简化,一处优化可多处受益。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

NNAdapter统计适配层方案,减少算子定义及框架调度的程序,在底层封装,硬件不需要知道框架背后调动的一系列逻辑,也不需要做侵入式修改,代码也更容易维护。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

飞桨还预发布了第三种硬件适配统一方案:神经网络编译器CINN。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

神经网络编译器CINN方案面向飞桨的框架进行深度的优化,同时支持训练和推理两方面,基于基础算子,组合实现更复杂的算子,减少算子适配数量,降低硬件适配成本,训练性能持平人工极致优化。

飞桨产业级模型库也进行了升级,不但关注精度还关注速度,并且正式推出产业级PP模型,发布13个PP系列的特色模型。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

3、EasyDL推出桌面版,一键快速安装

百度AI产品研发部总监忻舟谈道,随着模型参数增长、芯片种类增多、应用场景更多样,模型部署复杂度也不断增长。

他介绍了飞桨企业版模型部署升级情况,基于飞桨模型框架中的推理和部署的工具链,结合平台的优势,飞桨为企业打造自动高效的企业级部署功能,拥有显著提升推理性能、广泛适配推理芯片和大幅提高部署效率三大特性。

基于PaddleSlim并预置多种前沿压缩算法,飞桨提出根据模型框架和硬件和压缩级别,自动选择最优的压缩路径,对于常见的模型和硬件来说,平均精度损失控制在1%以内的情况下,推理性能提升3-5倍。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

飞桨基于自身的推理引擎,用组合适配的方式,测试并验证了9345种模型芯片组合,覆盖95%的适配需求,平均节省97%的模型适配开发时间。

飞桨企业版还提供智能边缘控制台的功能,帮助开发者可视化的进行硬件、时间、监控和运维的管理。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

忻舟还全新发布了飞桨EasyDL桌面版,可实现一键快速安装,广泛兼容多种操作系统,能够本地高效建模,为有数据保密需求的开发者提供帮助。

二、AI助力千行百业,飞桨加速AI落地

飞桨服务了15.7万家企事业单位,在落地到各行各业中的时候,与实际场景进行了多种融合创新,无论是传统行业像电力行业,还是科学领域,亦或是互联网领域,飞桨帮助更多开发者使用AI,加速了这些开发者所在行业的发展。

1、国家电网肖飞:新型电力系统建设迫在眉睫,AI助力多场景任务优化

国家电网上海电力公司调度中心副主任肖飞以《AI助力新型电力系统建设,服务“双碳”战略目标》为题,分享了国家电网与AI的一些故事。

随着碳达峰和碳中和目标的提出,以及各种主客观因素,作为耗能大户的国家电网需要进行新型电力系统建设。

新型电力系统建成标志就是新能源发电量占主导地位,新能源机组承担责任主体地位,但风能、太阳能等可再生能源存在不确定性,对于国家电网来说,这代表着相当多的挑战,像电力调度领域,需要进行数字化升级和智能化升级。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

肖飞列出了清洁能源的高效消纳、源网荷储的友好互动、系统的安全稳定运行、电力市场的经济低碳、新一代调度支持系统建设等场景下,国家电网对AI的需求和国家电网进行的AI时间。

他讲道,飞桨助力国家电网举行了国调人工智能创新大赛,规划了四大主题赛道,帮助国家电网实现更多的AI应用开发和落地。

2、中科院王彦棢:传统的科研领域应该成为AI的主战场

中科院计算机网络信息中心人工智能技术与应用发展部主任王彦棢的演讲主题是《面向科学发展的智能计算环境》。

他提到传统的科研领域应该成为AI的主战场,早在2016年,美国的一些科学家就已经在一些废弃的实验数据中去挖掘新材料方面的一些发现,以至于近期,很多科学家都尝试使用人工智能方法去替代一些材料计算过程,希望通过人工智能去更快更准地获得一些结果。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

王彦棢说,他们将人工智能的应用问题,更多看成了一个高性能计算的问题,通过虚拟化和容器以及高性能计算和任务调度的方式去实现了整个底层资源的调度,在飞桨的支持下,他们完成了一些对图像的处理、自然语言处理等任务。

3、网易云音乐段石石:三个阶段,改善推荐系统

网易云音乐机器学习平台与框架负责人段石石以《飞桨图计算助力超大规模推荐系统创新迭代》为主题,详细讲述了网易云的推荐系统的升级经验。

面对超大规模数据、多域数据和动态数据标签的情况,如何理解用户意图,如何有效表征这些信息,成为需要解决的难题,传统机器学习在这方面存在瓶颈。

飞桨的PGL支持超大规模数据的全图存储、子图检索和高效图计算,并具有极低存储成本、灵活的子图检索模式和高效分布式训练等特点,网易云音乐选择利用PGL来进行升级。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

网易云音乐通过三个阶段的改善,将PGL插入式的接入到其现有的机器学习平台,然后成为网易云音乐机器学习平台的基础能力。

第一个阶段是利用EasyGraph组件,第二个阶段是抽象出来PGL Operator来支持PGL快速稳定地运行在机器学习平台的Kubernetes环境内,第三个,针对于线上和线下不同的使用图神经网络的方式,抽象出两种逻辑来满足应用需求。

关于未来规划,段石石谈到会构建音乐社区用户和内容理解中台,基于知识图谱进行图神经网络的落地应用,最后是和飞桨一起推动图神经网络在产业界落地。

三、AI人才培养存在挑战,开源共建助力飞桨生态增长

人是AI产业发展必不可少的要素之一,如何培育人才是关键,除了依靠学校和企业的共同努力之外,兴趣或许是更好的老师,飞桨开源的生态,让对AI感兴趣的人更容易的接触到AI,和进行相关实践。

1、AI人才培养与产业需求有3个脱节,校企协同育人是核心

AI的发展归根结底要依靠人才来实现。在“产业发展新阶段,AI人才培养的机遇与挑战”圆桌论坛上,在谈道从高校角度来,企业应该如何发挥技术和产业的优势,助力高校人才的培养时,复旦大学教授王晓阳说,教育和产业两个不同的节奏在运行,企业应该有些耐心,另一方面,企业可以在通用性技术方面多做一些努力。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

在讨论是否会根据现在AI技术的发展情况制定教学大纲时,上海大学计算机工程与科学学院院长谢少荣谈道,首先要打好基础,然后是复合型人才的培养。华东师范大学计算机科学与技术学院副院长周爱民说,这需要发挥各自学校的优势,探索交叉形式。

在峰会上,西安交通大学电信学部副主任周新民还以《校企合作,协同育人,探索“菁英班”创新人才培养新模式》为主题,介绍了西安交通大学电信学部的AI人才培养经验。

“菁英班”模式主要解决大学专业设置和社会发展需求、教师工程实践能力与实践教学改革创新需求、创新实验平台和人才创新能力培养需求这3个方面的脱节问题。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

该模式的核心是校企合作协同育人,企业导师参与学校理论课程教学,指导学生项目设计课程计划。

2、飞桨与开发者共建共生,伙伴有超40个全球开源项目与社区组织

在峰会上,来自开源社区ONNX的Sheng Zha和来自开源社区Kubeflow的Yuan Tang分别分享了各自开源平台社区与飞桨平台社区的故事。

ONNX最初是由Facebook(现名Meta)和微软发起的,目的是促进深度学习的交换,通过内置运算符和标准数据类型的定义来帮助模型在不同系统框架之间进行交互。

Sheng Zha谈道,飞桨社区投入建立了飞桨和ONNX两个互相转化的项目,帮助开发者更高效地实现模型开发。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

Yuan Tang说,Kubeflow是基于Kubernetes开发的机器学习工具库,利用飞桨,Kubeflow发挥了更大价值。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

飞桨开发者技术专家(PPDE)曹志浩和高鸿志也分别分享了其使用飞桨的心路历程和项目情况。

凝聚406万开发者,百度飞桨开源框架再升级!全景图新增文心大模型

高鸿志介绍了他和伙伴们利用飞桨完成的两个项目,第一个项目是通过飞桨与沙漠治理机器人相结合,帮助沙漠绿化;第二个项目是配合飞桨AI开发套件,让机器狗变身导盲犬,现有导盲犬无法做到的事情,机器狗能够做的更多。

结语:飞桨生态日益壮大,AI正落地千行百业

从2016年宣布开源,发展到今年,百度飞桨已经和众多开发者一起走过了5年时间,飞桨的生态也从0增长到累计拥有406万开发者,基于百度飞桨的AI应用正落地到更多的行业中。

从飞桨众多开发者所进行的工作来看,我们可以看到各行各业正在利用AI进行智能化升级,加速发展的身影,AI或许将无处不在。