浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西3月17日报道,今天上午,浪潮信息生态伙伴大会IPF2022大会举行。一年一度的IPF大会,不仅展示出浪潮最新产品和技术,也将众多产学研界专家汇聚一堂,分享了围绕数据中心升级、智算中心升级、智算生态协作、AI算法基础设施开源开放等方面的最新技术实践与洞见思考。

现场,中国工程院院士、浪潮首席科学家王恩东以《智算创见,数实相融》为题发表主题演讲,系统阐述了智算创新面临的挑战与解决之道。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品▲中国工程院院士、浪潮首席科学家王恩东

作为新兴AI企业的主要合作伙伴和算力供应商,浪潮不仅在数据中心计算架构、AI大模型等领域持续精进,并将技术栈向底层延伸,基于异构加速、多元融合、软件定义、高效制冷这四个核心产品理念,形成覆盖从硬件设施到系统软件的产品体系。

总体来说,浪潮正在智算技术、智算产品、智算中心、元脑生态四个方面不断创新,具体包括创新智算技术体系、创新智算产品体系、推动智算中心落地、建设元脑产业链生态,以推动智算产业发展。

在演讲最后,王恩东院士还让浪潮大模型“源1.0”做了最后的总结陈词,创作了一首诗。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

一、计算架构以数据为中心,大模型精度超业界水平

王恩东院士认为,融合架构2.0阶段已经实现CPU同各种加速单元的协同,提升了计算性能,但普遍采用PCIe互连的方式,存在内存低质、空间隔离、不支持缓存一致、延迟高等问题。

在融合架构3.0阶段,浪潮提出了以数据为中心的计算架构,在计算节点内部实现了CPU与加速器之间的缓存一致性、高速总线互连,加速器与CPU之间可以共享内存数据,统一编制,协同工作。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

基于这个技术,浪潮研发了国内首款支持高速计算、连接一致性总线的加速器,与传统的PCIe、DMA方式相比,其CPU与加速器之间的平均数据访问延迟降低80%,同时可以扩展两倍的内存空间,在跨节点及通过智能处理数据单元和高速网络形成分布式互连交换,可实现CPU、GPU、FPGA各种加速芯片的算力协同,以及内存池化、新型存储池化。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

芯片间的数据访问延迟,可以低到亚微秒级,支持高效弹性扩展。此外,该计算架构还可以通过在互连处理单元中卸载控制平面、实现控制与计算的分离,实现更为灵活的资源可重构。

在算法模型方面,浪潮提出了面向大模型的智能算法,精度持续提升。

以“源1.0”为例,其参数量较GPT-3提高了40%,精度表现也优于GPT-3,在成语阅读理解、情感分析、广告分类、问答等自然语言处理(NLP)任务上取得了业界领先的精度。在中文语言理解评测CLUE中,“源1.0”零样本学习和小样本学习评测的精度均排名第一。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

源1.0写作的新闻、诗歌、小说等作品,已经令人们难以分辨是由人还是机器所创作。

浪潮在源1.0中采用了知识驱动技术,显著提升了大模型的精度,使其在中文问答任务中的精度提升了36%,远超业界水平。

王恩东说,浪潮将继续探索新的算法模型结构,将各种不同功能、不同模态的大模型。通过复杂连接的网络动态组合,形成群体智能,以满足对于多模态、多任务处理需求。

为了满足大模型算力效率提升的需求,浪潮提出了面向大模型的软硬件协同体系结构,大模型的复杂多层结构按照流水线并行、张量并行的方式自动切分,分布到不同的计算节点内。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

训练数据以并行的形式,高效供给到计算节点中。通过对模型结构、分布式训练算法以及软硬件的协同优化,这个系统在“源1.0”的训练之中,算力效率达到45%,性能领先于业界。

为了解决大模型大规模高质量海量数据集的构建难题,浪潮提出了智能高效的数据处理和过滤系统。该系统包含数十种多语言多模态数据清洗,实现了全流程自动化数据处理。基于这个系统,浪潮构建了业界规模最大的高质量中文数据集

二、解读四大产品理念,扛起国内AI服务器半壁江山

在产品方面,王恩东院士谈道,浪潮将持续巩固算力系统与数智软件平台层面的优势,提供硬件重构的智算整机系统,包括通用计算系统、智算加速系统,也会面向海量数据和高速互连提供智算存储和数据中心交换机产品。

此外,浪潮将技术栈持续往底层延伸,面向不同的场景,开发定制化的AI加速、网络加速,最终形成覆盖物理设施、芯片加速卡、整机系统、系统软件的领先产品体系。

总结起来,其产品理念可以概括为四个方面——异构加速、多元融合、软件定义、高效制冷

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

首先是异构加速。摩尔定律逐渐接近物理极限,多元异构芯片成为提升算力的关键措施。

像FPGA,在特定场景下,相对CPU有10~15倍的性能提升;而GPU等各种AI加速芯片,面向训练、推理和科学计算等矩阵运算,有无可比拟的优势;传统的业务应用,如网站、数据库等,需要通用的CPU来处理。

浪潮除了能够以创新设计将这些算力单元进行高效整合外,也在智能网卡、视频加速器等专用领域开发了自己的加速器。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

第二个产品理念是多元融合。从技术层面,这体现在协议规范化、接口标准化、单元模块化,也就是说,在节点内、跨节点、跨域,通过PCIe、CXL、DMA等协议,来实现高速互连的规范化,从CPU等器件、外设部件、BMC固件方面,实现接口标准化。同时,小到电源、硬盘,大到模块化数据中心,各个层面的硬件功能单元实现模块化设计。

在此基础之上,多元融合在系统能力层面,能够实现资源池化、集约高效和敏捷交付。这就使得各类计算系统可以按需定义,多元算力、异构计算实现高效协同、绿色节能,并通过敏捷研发、敏捷制造实现敏捷交付。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

浪潮依照这种多元融合的产品设计理念,形成了通用计算系统、智算加速系统、网络存储系统和高速网络产品系列。

过去几年,浪潮服务器快速发展,尤其是2021年,浪潮服务器跃居全球前二,向全球第一的目标又迈进一步;在AI服务器方面,浪潮已经连续五年在国内市场占有率超过50%,保持全球第一。同时,浪潮也是高端服务器中国第一、边缘专用服务器中国第一,以及分布式存储全球前三、中国第一。此外,浪潮还是全球唯一三大开放组织核心成员。

第三个产品理念是软件定义。基于可重构硬件资源池,浪潮智算中心操作系统通过软件定义的方式,实现了物理资源与逻辑资源的解耦、资源组织模型的统一,形成软件定义计算、软件定义存储、软件定义网络,并通过微服务化,实现了集中管理平台的高可用和高扩展。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

在此基础之上,浪潮智算中心操作系统进一步与AI技术结合,面向业务,实现了集于应用感知、软件定义、按需组合,通过主动意图感知、自适应编排和弹性资源调度,从而广泛支持传统核心应用、大数据、AI等各种不同类型的业务。

针对视频分析、自然语言理解等典型AI场景,用户可以按需定义训练和推理系统。同时,浪潮智算中心操作系统面向管理实现了智能运营运维,如智算中心的无人巡检、异常行为分析、容量预测等。

在过去一年,浪潮数据中心智算系统取得多项成绩,包括刷新SPEC Virt虚拟化测试世界记录、SPEC Cloud云平台测试世界记录等。此外,浪潮也做到了SPC-1软件定义存储测试全球第一、AI系统入围Forrester卓越表现者象限,其OpenStack社区贡献也继续保持中国第一。

最后是高效制冷。在数据中心的总体能耗中,除了计算自身消耗外,制冷散热是主要的耗能大户,RT设备在提升系统传热效率和热流密度方面已遇到瓶颈,需在产品形态、基础部件和数据中心整体设计方面,围绕提升效率进行突破性的创新。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

浪潮在深入研究风冷效率极限的同时,研发探索了多类新型高效液冷技术在智算中心当中的应用,已实现相变均温、微通道冷却、浸没式冷却等新型技术在智算中心产品线的全线覆盖。

例如针对CPU、GPU等高功耗部件,浪潮采用微纳腔相变均温设计,相比传统的风冷技术,散热性能可提升150%。

此外,浪潮面向数据中心整体智能需求,基于液冷分配装置,同冷却塔进行一次侧循环,同液冷服务器、液冷机柜进行二次侧循环,实现了全栈服务器的冷却支持,和数据中心范围内全路径液冷循环,整体PUE值可以小于1.1。“应当说是打造了PUE值的总设计极限。”王恩东院士谈道。

三、算力算法基建化两手抓,南京智算中心1小时可完成100亿张图像处理

有了先进的技术、领先的产品后,下一步是如何将技术和产品以一种更普惠的方式,服务于AI产业发展和传统产业升级。

浪潮在2021年提出智算中心是新基建、智慧计算的基础设施,而智算基建的最核心内容就是算力和算法,也就是算力基建化和算法基建化。

算力基建化,是以算力服务为核心,将智算中心的计算、存储、网络等能力通过智算中心操作系统统一调度,并对外提供服务,把计算力像水和电一样,方便地提供给千行百业。

算法基建化,是通过在智算中心部署大模型所需要的训练、推理和数据处理系统,构建出自然语言处理大模型、视觉大模型和多模态大模型,同时,以模型API服务领域模型、开放社区的形式,对外提供算法基础服务。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

由浪潮建设的南京智算中心已上线运行一年有余,算力规模相当于1个小时内可以完成100亿张图像处理、300万小时语音翻译、1万公里自动驾驶数据处理,现已服务55家用户单位,覆盖了包括智能制造、气象检测和智慧交通等13个行业。

浪潮的大模型“源1.0”也部署在了南京智算中心,“源1.0”上线不到5个月的时间,已经有超过200个单位试用,支持超100个行业应用,并在古文理解、智能问答等四类领域形成了子模型服务。

王恩东院士说,数实相融是一个万亿级市场,无论数字产业化还是产业数字化,产业链拉通和生态建设都是必须的。在数字产业化过程中,浪潮是新兴AI企业的主要合作伙伴和算力供应商。

这些企业们或者拥有领先的芯片,或者积累了大量优质的算法、框架、模型和数据,在他看来,这些领先的AI技术正是产业数字化过程中行业用户所需要的,也是为这些用户服务的传统软件开发商所欠缺的。

为了填补产业与技术的鸿沟,浪潮于2019年牵头发起了元脑生态计划,并取得一系列进展。元脑生态聚合了具备AI开发核心能力的左手合作伙伴和具备行业AI方案交付能力的右手合作伙伴。

浪潮面向左手合作伙伴,希望“积小流以成江河”,聚合AI多元算力平台、优质算法模型;面向右手合作伙伴,坚持“水利万物而不争”的理念,赋能右手合作伙伴形成AI集成、部署和服务能力,加速行业智能构建,最终帮用户完成业务的智能转型升级。

浪潮王恩东:解码AI大模型关键要素,四大理念撑起智算产品

结语:智算基础设施建设的头雁

作为新基建、“东数西算”工程的重要组成部分,数据中心正向集约化、规模化、绿色低碳发展。从王恩东院士的演讲,我们能够看到作为国内服务器领军企业之一的浪潮,在攻坚数据中心关键技术研发创新的同时,也关注到智能化转型全流程的产业诉求,并通过算力基础设施的入口,将浪潮在软硬件技术及产业的积累输送向智能行业应用。

王恩东院士认为,智慧时代的序幕已经拉开,人工智能让人类认识和改变世界的方式不断发生变革,也加速了数字世界和实体世界融合的进程,概括起来,就是由看见到创见,从相通到相融。

在一众算力基础设施供应商中,浪潮信息可以说是兼具产业敏锐度和创新能力的一个代表,它正通过打造AI服务器、加速器、AI大模型等一系列软硬件智算产品,以及将不同分工的AI生态合作伙伴聚合协同,为催化智能产业及生态成熟、加速AI算法普惠大众贡献一份独特的力量。