浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

智东西（公众号：zhidxcom）
作者 | ZeR0
编辑 | 漠影

智东西3月17日报道，今天上午，浪潮信息生态伙伴大会IPF2022大会举行。一年一度的IPF大会，不仅展示出浪潮最新产品和技术，也将众多产学研界专家汇聚一堂，分享了围绕数据中心升级、智算中心升级、智算生态协作、AI算法基础设施开源开放等方面的最新技术实践与洞见思考。

现场，中国工程院院士、浪潮首席科学家王恩东以《智算创见，数实相融》为题发表主题演讲，系统阐述了智算创新面临的挑战与解决之道。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品 ▲中国工程院院士、浪潮首席科学家王恩东

作为新兴AI企业的主要合作伙伴和算力供应商，浪潮不仅在数据中心计算架构、AI大模型等领域持续精进，并将技术栈向底层延伸，基于异构加速、多元融合、软件定义、高效制冷这四个核心产品理念，形成覆盖从硬件设施到系统软件的产品体系。

总体来说，浪潮正在智算技术、智算产品、智算中心、元脑生态四个方面不断创新，具体包括创新智算技术体系、创新智算产品体系、推动智算中心落地、建设元脑产业链生态，以推动智算产业发展。

在演讲最后，王恩东院士还让浪潮大模型“源1.0”做了最后的总结陈词，创作了一首诗。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

一、计算架构以数据为中心，大模型精度超业界水平

王恩东院士认为，融合架构2.0阶段已经实现CPU同各种加速单元的协同，提升了计算性能，但普遍采用PCIe互连的方式，存在内存低质、空间隔离、不支持缓存一致、延迟高等问题。

在融合架构3.0阶段，浪潮提出了以数据为中心的计算架构，在计算节点内部实现了CPU与加速器之间的缓存一致性、高速总线互连，加速器与CPU之间可以共享内存数据，统一编制，协同工作。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

基于这个技术，浪潮研发了国内首款支持高速计算、连接一致性总线的加速器，与传统的PCIe、DMA方式相比，其CPU与加速器之间的平均数据访问延迟降低80%，同时可以扩展两倍的内存空间，在跨节点及通过智能处理数据单元和高速网络形成分布式互连交换，可实现CPU、GPU、FPGA各种加速芯片的算力协同，以及内存池化、新型存储池化。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

芯片间的数据访问延迟，可以低到亚微秒级，支持高效弹性扩展。此外，该计算架构还可以通过在互连处理单元中卸载控制平面、实现控制与计算的分离，实现更为灵活的资源可重构。

在算法模型方面，浪潮提出了面向大模型的智能算法，精度持续提升。

以“源1.0”为例，其参数量较GPT-3提高了40%，精度表现也优于GPT-3，在成语阅读理解、情感分析、广告分类、问答等自然语言处理（NLP）任务上取得了业界领先的精度。在中文语言理解评测CLUE中，“源1.0”零样本学习和小样本学习评测的精度均排名第一。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

源1.0写作的新闻、诗歌、小说等作品，已经令人们难以分辨是由人还是机器所创作。

浪潮在源1.0中采用了知识驱动技术，显著提升了大模型的精度，使其在中文问答任务中的精度提升了36%，远超业界水平。

王恩东说，浪潮将继续探索新的算法模型结构，将各种不同功能、不同模态的大模型。通过复杂连接的网络动态组合，形成群体智能，以满足对于多模态、多任务处理需求。

为了满足大模型算力效率提升的需求，浪潮提出了面向大模型的软硬件协同体系结构，大模型的复杂多层结构按照流水线并行、张量并行的方式自动切分，分布到不同的计算节点内。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

训练数据以并行的形式，高效供给到计算节点中。通过对模型结构、分布式训练算法以及软硬件的协同优化，这个系统在“源1.0”的训练之中，算力效率达到45%，性能领先于业界。

为了解决大模型大规模高质量海量数据集的构建难题，浪潮提出了智能高效的数据处理和过滤系统。该系统包含数十种多语言多模态数据清洗，实现了全流程自动化数据处理。基于这个系统，浪潮构建了业界规模最大的高质量中文数据集。

二、解读四大产品理念，扛起国内AI服务器半壁江山

在产品方面，王恩东院士谈道，浪潮将持续巩固算力系统与数智软件平台层面的优势，提供硬件重构的智算整机系统，包括通用计算系统、智算加速系统，也会面向海量数据和高速互连提供智算存储和数据中心交换机产品。

此外，浪潮将技术栈持续往底层延伸，面向不同的场景，开发定制化的AI加速、网络加速，最终形成覆盖物理设施、芯片加速卡、整机系统、系统软件的领先产品体系。

总结起来，其产品理念可以概括为四个方面——异构加速、多元融合、软件定义、高效制冷。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

首先是异构加速。摩尔定律逐渐接近物理极限，多元异构芯片成为提升算力的关键措施。

像FPGA，在特定场景下，相对CPU有10~15倍的性能提升；而GPU等各种AI加速芯片，面向训练、推理和科学计算等矩阵运算，有无可比拟的优势；传统的业务应用，如网站、数据库等，需要通用的CPU来处理。

浪潮除了能够以创新设计将这些算力单元进行高效整合外，也在智能网卡、视频加速器等专用领域开发了自己的加速器。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

第二个产品理念是多元融合。从技术层面，这体现在协议规范化、接口标准化、单元模块化，也就是说，在节点内、跨节点、跨域，通过PCIe、CXL、DMA等协议，来实现高速互连的规范化，从CPU等器件、外设部件、BMC固件方面，实现接口标准化。同时，小到电源、硬盘，大到模块化数据中心，各个层面的硬件功能单元实现模块化设计。

在此基础之上，多元融合在系统能力层面，能够实现资源池化、集约高效和敏捷交付。这就使得各类计算系统可以按需定义，多元算力、异构计算实现高效协同、绿色节能，并通过敏捷研发、敏捷制造实现敏捷交付。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

浪潮依照这种多元融合的产品设计理念，形成了通用计算系统、智算加速系统、网络存储系统和高速网络产品系列。

过去几年，浪潮服务器快速发展，尤其是2021年，浪潮服务器跃居全球前二，向全球第一的目标又迈进一步；在AI服务器方面，浪潮已经连续五年在国内市场占有率超过50%，保持全球第一。同时，浪潮也是高端服务器中国第一、边缘专用服务器中国第一，以及分布式存储全球前三、中国第一。此外，浪潮还是全球唯一三大开放组织核心成员。

第三个产品理念是软件定义。基于可重构硬件资源池，浪潮智算中心操作系统通过软件定义的方式，实现了物理资源与逻辑资源的解耦、资源组织模型的统一，形成软件定义计算、软件定义存储、软件定义网络，并通过微服务化，实现了集中管理平台的高可用和高扩展。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

在此基础之上，浪潮智算中心操作系统进一步与AI技术结合，面向业务，实现了集于应用感知、软件定义、按需组合，通过主动意图感知、自适应编排和弹性资源调度，从而广泛支持传统核心应用、大数据、AI等各种不同类型的业务。

针对视频分析、自然语言理解等典型AI场景，用户可以按需定义训练和推理系统。同时，浪潮智算中心操作系统面向管理实现了智能运营运维，如智算中心的无人巡检、异常行为分析、容量预测等。

在过去一年，浪潮数据中心智算系统取得多项成绩，包括刷新SPEC Virt虚拟化测试世界记录、SPEC Cloud云平台测试世界记录等。此外，浪潮也做到了SPC-1软件定义存储测试全球第一、AI系统入围Forrester卓越表现者象限，其OpenStack社区贡献也继续保持中国第一。

最后是高效制冷。在数据中心的总体能耗中，除了计算自身消耗外，制冷散热是主要的耗能大户，RT设备在提升系统传热效率和热流密度方面已遇到瓶颈，需在产品形态、基础部件和数据中心整体设计方面，围绕提升效率进行突破性的创新。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

浪潮在深入研究风冷效率极限的同时，研发探索了多类新型高效液冷技术在智算中心当中的应用，已实现相变均温、微通道冷却、浸没式冷却等新型技术在智算中心产品线的全线覆盖。

例如针对CPU、GPU等高功耗部件，浪潮采用微纳腔相变均温设计，相比传统的风冷技术，散热性能可提升150%。

此外，浪潮面向数据中心整体智能需求，基于液冷分配装置，同冷却塔进行一次侧循环，同液冷服务器、液冷机柜进行二次侧循环，实现了全栈服务器的冷却支持，和数据中心范围内全路径液冷循环，整体PUE值可以小于1.1。“应当说是打造了PUE值的总设计极限。”王恩东院士谈道。

三、算力算法基建化两手抓，南京智算中心1小时可完成100亿张图像处理

有了先进的技术、领先的产品后，下一步是如何将技术和产品以一种更普惠的方式，服务于AI产业发展和传统产业升级。

浪潮在2021年提出智算中心是新基建、智慧计算的基础设施，而智算基建的最核心内容就是算力和算法，也就是算力基建化和算法基建化。

算力基建化，是以算力服务为核心，将智算中心的计算、存储、网络等能力通过智算中心操作系统统一调度，并对外提供服务，把计算力像水和电一样，方便地提供给千行百业。

算法基建化，是通过在智算中心部署大模型所需要的训练、推理和数据处理系统，构建出自然语言处理大模型、视觉大模型和多模态大模型，同时，以模型API服务领域模型、开放社区的形式，对外提供算法基础服务。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

由浪潮建设的南京智算中心已上线运行一年有余，算力规模相当于1个小时内可以完成100亿张图像处理、300万小时语音翻译、1万公里自动驾驶数据处理，现已服务55家用户单位，覆盖了包括智能制造、气象检测和智慧交通等13个行业。

浪潮的大模型“源1.0”也部署在了南京智算中心，“源1.0”上线不到5个月的时间，已经有超过200个单位试用，支持超100个行业应用，并在古文理解、智能问答等四类领域形成了子模型服务。

王恩东院士说，数实相融是一个万亿级市场，无论数字产业化还是产业数字化，产业链拉通和生态建设都是必须的。在数字产业化过程中，浪潮是新兴AI企业的主要合作伙伴和算力供应商。

这些企业们或者拥有领先的芯片，或者积累了大量优质的算法、框架、模型和数据，在他看来，这些领先的AI技术正是产业数字化过程中行业用户所需要的，也是为这些用户服务的传统软件开发商所欠缺的。

为了填补产业与技术的鸿沟，浪潮于2019年牵头发起了元脑生态计划，并取得一系列进展。元脑生态聚合了具备AI开发核心能力的左手合作伙伴和具备行业AI方案交付能力的右手合作伙伴。

浪潮面向左手合作伙伴，希望“积小流以成江河”，聚合AI多元算力平台、优质算法模型；面向右手合作伙伴，坚持“水利万物而不争”的理念，赋能右手合作伙伴形成AI集成、部署和服务能力，加速行业智能构建，最终帮用户完成业务的智能转型升级。

浪潮王恩东：解码AI大模型关键要素，四大理念撑起智算产品

结语：智算基础设施建设的“头雁”

作为新基建、“东数西算”工程的重要组成部分，数据中心正向集约化、规模化、绿色低碳发展。从王恩东院士的演讲，我们能够看到作为国内服务器领军企业之一的浪潮，在攻坚数据中心关键技术研发创新的同时，也关注到智能化转型全流程的产业诉求，并通过算力基础设施的入口，将浪潮在软硬件技术及产业的积累输送向智能行业应用。

王恩东院士认为，智慧时代的序幕已经拉开，人工智能让人类认识和改变世界的方式不断发生变革，也加速了数字世界和实体世界融合的进程，概括起来，就是由看见到创见，从相通到相融。

在一众算力基础设施供应商中，浪潮信息可以说是兼具产业敏锐度和创新能力的一个代表，它正通过打造AI服务器、加速器、AI大模型等一系列软硬件智算产品，以及将不同分工的AI生态合作伙伴聚合协同，为催化智能产业及生态成熟、加速AI算法普惠大众贡献一份独特的力量。

一、计算架构以数据为中心，大模型精度超业界水平

二、解读四大产品理念，扛起国内AI服务器半壁江山

三、算力算法基建化两手抓，南京智算中心1小时可完成100亿张图像处理

结语：智算基础设施建设的“头雁”

相关推荐