Arm发布两大Neoverse CSS新品!对话基础设施事业部高管:谈加速生成式AI推理的优势

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西2月27日报道,2月22日,Arm宣布推出两款基于全新第三代Neoverse IP构建的全新Arm Neoverse计算子系统(CSS)——CSS V3和CSS N3。就CSS新品的技术特点与核心优势,三位Arm基础设施事业部高管与芯东西等媒体进行了深入交流。

Arm Neoverse CSS使得定制芯片变得更快、更易实现,让客户能够像管理他们的软件和系统栈一样地管理芯片栈。作为一套经优化、集成和验证的平台,Neoverse CSS汇集了构成系统级芯片(SoC)核心的各类关键部件,能够为最重要的工作负载优化总体拥有成本(TCO),目前已被采用于云计算、网络、数据中心基础设施及AI等多样化应用中。

两款新品中,Neoverse CSS V3是Arm高性能V系列产品组合中的首款Neoverse CSS产品,基于全新Neoverse V3 IP打造,其单芯片性能相比CSS N2可提高50%;另一款新品Neoverse CSS N3的每瓦性能相比CSS N2可提升20%。

生成式 AI 和大语言模型是去年AI相关话题讨论的焦点。据Arm基础设施事业部产品解决方案副总裁 Dermot O’Driscoll分享,Arm也非常关注生成式AI和大语言模型类工作负载。通过分析对应工作负载核心的特定关键任务算法,Arm能明确并实施对提升性能最有效的微架构调整方法,从处理器、IP到系统,全面优化AI与机器学习的性能。

Arm发布两大Neoverse CSS新品!对话基础设施事业部高管:谈加速生成式AI推理的优势

他谈道,CPU推理将是生成式AI计算应用的关键组成,当今广泛部署的Arm芯片上,Token生成吞吐量表现优异。同时,我们也看到有些AI处理是在其他加速器上进行。据最近统计,打造AI加速器的公司已接近80家。以NVIDIA Grace Hopper超级芯片为例,基于Neoverse V2平台的紧耦合计算CPU Grace加上加速器配置,对大参数大语言模型和RAG等新兴方法非常有益。

一、两款CSS新品:CSS V3单芯片性能提高50%,最高可支持128核心

两款全新的Neoverse CSS产品均基于全新的第三代Neoverse IP构建。通过全新的平台和计算子系统,Arm扩展了N系列的产品路线图,并针对性能优先的V系列平台推出新一代产品,首次将计算子系统引入该产品线。

与CSS N2相比,Neoverse CSS N3每核心的每瓦性能提升20%。CSS N3的首个实例可提供32核,热设计功耗(TDP)低至40W。其可扩展性可覆盖电信、网络和DPU等一系列应用。

Arm也同时考虑横向扩展云配置。CSS N3基于新的Neoverse N3 IP平台打造,为新的N系列引入了Armv9.2功能,能为每个核心提供2MB专用L2缓存,并支持最新的PCIe和CXL I/O标准以及UCIe芯粒标准。

针对更高性能需求,Arm将CSS项目扩展到V系列核心,推出Neoverse CSS V3。

与CSS N2相比,CSS V3的单芯片性能提高了50%。CSS V3单芯片最多可扩展至128核,并支持最新的高速内存和I/O标准。CSS V3基于Arm目前单线程性能最高的Neoverse核心Neoverse V3打造,V3可为Arm机密计算架构 (CCA)提供硬件支持。

V3和N3核心均可提供业界领先的专用L2缓存大小,能够显著改善性能表现。

N系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。V系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。下图展示了V3和N3在不同关键工作负载中实现的性能提升。

Arm发布两大Neoverse CSS新品!对话基础设施事业部高管:谈加速生成式AI推理的优势

Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll相信,这些计算子系统能够帮助Arm的合作伙伴构建领先的高性能且高效的服务器芯片,满足持续增长的算力需求。

二、两大趋势推动未来基础设施发展,Arm能在平台级别上调优内存和I/O

他谈道,两大趋势将推动未来基础设施发展:一是对支持云计算关键工作负载的计算进行优化,二是头部企业需要一种行之有效的方式来助力打造定制芯片。而Arm的合作式IP业务模式和计算子系统能够为这些企业提供技术选用和选购的灵活性,助其实现这两个目标。

通过与Arm的协作模式,合作伙伴可在IP开发过程中,在对应IP的典型系统上运行其工作负载。这种协作模式直接影响Arm架构的发展方向,以及其在IP产品中实现微架构的方式。

在交付IP后,Arm也将为合作伙伴提供贯穿整个芯片开发周期的支持。通过模拟和仿真,Arm帮助合作伙伴评估由Arm提供的设计选择,并在开发与配置的全流程中提供支持,从而缩短产品上市进程。

“Arm与合作伙伴建立了更深层的合作关系,这是其他计算供应商无法比拟的。”Dermot O’Driscoll谈道,“只有Arm能够在平台级别上调优内存和I/O,并添加自定义工作负载加速器。”

为了让客户能够像管理他们的软件和系统栈一样地管理芯片栈,去年Arm推出了Neoverse CSS,使得定制芯片变得更迅速,且更易实现。在Neoverse CSS中,Arm 负责配置、优化和验证一套完整的计算子系统,并针对基础设施市场的各种关键用例进行配置,从而让合作伙伴能够专注于,针对特定系统级工作负载塑造差异化竞争优势,比如软件调优、定制加速等。此外,他们还能从CSS中额外获得选购优势,加速其产品上市时间、降低工程成本,同时还能够善用前沿的处理器技术。

在Dermot O’Driscoll看来,Neoverse CSS代表着Arm向客户交付产品的方式有了跃升的改变,这样的变化也延伸到了其首屈一指的软硬件生态系统。

三、三大核心优势加速定制芯片,Arm全面设计生态伙伴已超过20家

Arm高级副总裁兼基础设施事业部总经理 Mohamed Awad谈道,众多大型科技企业正基于Arm平台构建新一代系统和基础设施,比如NVIDIA基于Arm架构研发了Grace Hopper超级芯片,亚马逊云科技(AWS)、微软等科技巨头也基于Arm设计定制SoC,通过对系统的网络、加速、通用计算等方面的调优,以优化效率、性能和TCO。

Mohamed Awad说,他们之所以选Arm,是因为Arm提供快速创建定制解决方案的能力,并具备赋能广泛生态系统进行创新的强项。

他总结了Arm在基础设施取得进展的三大主因:1)卓越性能,工程团队坚持实现迭代提升;2)灵活性,赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统;3)生态系统,在软件、IP和芯片生态系统中提供出色性能和灵活性,从而降低配置的总成本并加速产品上市。

Arm Neoverse CSS 的特点则是将这三种优势结合在一起,过去一年进展显著。

微软Azure Cobalt CPU便是基于Neoverse CSS所打造的产品之一。据Mohamed Awad分享,有一家合作伙伴通过使用Neoverse CSS节省了长达 80人/年的工程师时间,另一个合作伙伴案例则是从项目启动到流片仅耗时9个月。

为了让合作伙伴能够快速且成功地交付定制解决方案,Arm稍早推出了Arm全面设计(Arm Total Design)生态项目,旨在汇集合作伙伴致力于无缝交付基于Neoverse CSS的定制SoC。

在推出后短短四个月内,Arm全面设计生态项目已吸引超过20家来自各方技术合作伙伴的加入,包括新的EDA和配套IP提供商,以及来自韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴。基于Neoverse CSS的技术,这些合作伙伴在方方面面携手合作,从验证IP、定制固件,到在全球先进的工艺节点上打造芯粒。

芯粒已成为管理良率的常用机制,能让企业在单个芯片上利用到多种工艺节点。通用芯粒互连技术(UCIe)行业标准旨在解决芯粒物理层兼容性的问题。Arm及其生态系统合作伙伴正积极参与这个项目。

基于Arm全面设计生态伙伴的反馈意见,Arm打造出近期发布的芯粒系统架构(Chiplet System Architecture, CSA),旨在定义一个功能强大、支持通用的芯粒生态系统。Dermot O’Driscoll补充道:“你可以想成,CSS可以让打造计算芯粒变得更为轻松。我们预计很多人都需要将计算芯粒与其AI加速器并行使用,而CSA将简化这一联合设计的过程。”

四、与三大晶圆代工厂合作优化,CSS合作伙伴已迈向2nm节点

Arm正在与3家主要代工厂合作,以确保其CSS产品能在其先进工艺节点上进行优化。

与此同时,Arm全面设计的合作伙伴正在努力将基于Neoverse CSS的设计推向市场。

据Arm基础设施事业部营销副总裁Eddie Ramirez分享,DPU创企云豹智能是Arm全面设计生态项目在中国市场的首家合作伙伴,Arm全面设计正帮助云豹智能将业务拓展到其他领域,并有助于其开发其他类型的基础设施SoC。

去年10月,Socionext成为首家宣布计划在台积电2nm工艺上开发基于CSS芯粒的合作伙伴。这款配置32核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案。该设计将基于新推出的Neoverse CSS V3来打造。

智原科技在构建基于芯粒的、搭载64颗N系列核心的服务器芯片,并基于英特尔代工服务的Intel 18A工艺节点进行生产制造。韩国芯片设计公司ADTechnology将提供16核CSS N系列边缘服务器平台,将与三星代工厂合作,为边缘计算释放更强大的算力。

结语:进一步加速产品上市时间,并降低构建新芯片的成本

“Arm平台是未来计算及AI的基石。”Mohamed Awad总结说,Arm全面设计的重要意义在于,现在有许多不同的生态系统合作伙伴共同投资于Neoverse CSS,使得设计能够更轻松地推向市场,并且能够很容易地在Neoverse CSS上取用到先进技术,加速产品上市时间,并降低构建新芯片的成本。最终,合作伙伴可以将构建芯片的投资重点放在创新上。

新发布的Neoverse CSS N3和CSS V3专注于释放芯粒等新技术的潜力,并更大限度地优化实际工作负载的TCO,对包括AI、数据库、网络等在内的整个生态系统都能发挥价值。随着更多头部企业及创企在基于Neoverse平台的技术、系统、软件和芯片上持续投入,Arm技术及软件栈将在解决AI转型带来的不断增长的数据和计算需求的进程起到关键作用。