决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

芯东西(公众号:aichip001)
编译 |  luna
编辑 |  Panken

芯东西9月1日报道,8月29日,在顶尖处理器和系统架构师的年度盛会Hot Chips 2023上,Arm宣布推出Neoverse计算子系统(CSS),同时发布了第一代CSS产品Arm CSS N2。这是Arm为进一步减少数据中心CPU开发周期和成本而推出的最新力作。

Neoverse是Arm面向数据中心市场研发的CPU IP产品家族。相比以前提供的独立IP产品,Neoverse CSS提供了更完整的系统设计模块,包括IP的集成、整合、验证等配置,等于是进一步节省了很多开发步骤,让其合作伙伴能根据需求更快开发出专用的服务器CPU。

据Arm分享,以前开发CPU可能耗时长达3年,而使用CSS后,其一个客户的芯片开发从启动到投入使用,总共只花了13个月。

一年一度的Hot Chips大会本周在斯坦福大学举行,Arm与其他知名芯片巨头及初创公司一同分享了以上动态。通过这次会议,观众不仅可以看到芯片领域顶级技术专家齐聚一堂的盛景,还可以领略行业风向标带来的前沿产品介绍以及他们对未来发展趋势的解析,今年也不例外。

本文将详解Arm在会上披露的Arm CSS的技术要点,并结合第一代CSS CPU产品N2,来探讨全新的计算子系统如何缩减数据中心CPU的开发周期以及降低其成本。

一、13个月搞定芯片交付!Arm甩出定制新招,大降数据中心CPU开发成本

数据显示,5G移动通信用户数已达10亿、物联网设备接近150亿个,加上高达120ZB(皆字节)的数据产出量,连网的装置与数据的数量正持续地增加,而这一切都需要更多的功耗与更高的性能。叠加摩尔定律的递减,SoC设计成本与复杂性持续攀升,推出高效率与特定计算处理即是企业的应对之策。

Arm面向数据中心的基础设施定制化需求,推出的Neoverse计算子系统(CSS)是一款预先配置、整合及验证的系统,该系统通过在先进芯片上提供经过验证以及“性能最佳化”的计算,使芯片设计资源集中用于建构差异化的市场定制化解决方案。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS的组件

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS是一个经过充分验证的系统

据介绍,CSS的组件包括Neoverse核心、CMN网状结构和系统IP,能够快速提供市场高性能计算所需的系统管理、电源管理、软体和开发工具。CSS提供Armv9架构和Neoverse技术的路线图为:Arm机密计算架构(CCA)、AMBA CHI C2C、Arm可变矩阵扩展(SME)等。

CSS以更低的成本构建定制芯片,与传统解决方案相比,风险更低、上市时间更快。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS可节省大量时间和成本

该系统可以降低SoC设计复杂性,CSS客户报告显示,从开始开发到可使用的芯片只需13个月,可节省80个“工程年”,即原本需要工程师80年的工作时间。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS客户报告

Arm资深副总裁暨基础设施事业部总经理Mohamed Awad说:“我们赋予合作伙伴将有限的资源专注在关键差异化的能力,同时Arm也继续发挥所长,即提供可扩展且高效率的计算基础。”

二、首款CSS产品N2:5nm制程,Armv9架构,可扩展256核

全新的计算子系统为Arm Neoverse系列提供计算处理的支撑,Arm当即推出第一代CSS CPU产品——CSS N2。CSS N2基于现有的Neoverse N2核心而进行升级,通过Neoverse系列核心卓越的每瓦特性能来加快处理,以缩短芯片上市时间,助力芯片设计厂可以更专注于实现其商业价值,推出差异化的硬件和软件。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS N2核心功能一览

根据Arm介绍,CSS N2采用5nm先进制程,多达64个Neoverse N2核心;每个核心高达1MB的L2私有缓存和高达64MB的共享系统级缓存;多达8个DDR5 40b或LPDDR5通道;多达4个x16 PCIe/CXL Gen5通道。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS N2的组件

从Arm分享的CSS N2技术路线可以看到,CSS N2根据Neoverse N2核心进行预先整合、预先验证的配置,且优化了功耗、性能与面积(PPA)。具体来说,如下:

1、多核和多芯片扩展功能

对于需要高核心数的横向扩展云等用例,CSS N2支持跨两个插槽扩展多达256个核心。使用UCIe或特定于合作伙伴的PHY的高速芯片到芯片链路可以在单个插槽中链接多达128个核心。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS N2云到边缘用例

两个插槽可以使用CXL PHY和SMP协议进行相干连接。在这两种情况下,AMBA CXS协议都用于将UCIe/CXL物理层和数据链路层桥接到基于AMB ACHI的CMN-700互连网状网络中。

除了所有硬件规格和组件外,CSS N2还附带一套适合其运行和快速部署的软件和固件,具有各种功能和文档,以便用户在此N2核心上可以进行开发。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS N2的软件

2、连接加速器和外部设备

为了支持专用芯片和异构计算的开发,CSS N2为片上和外部连接的加速器或其他设备提供了选项。片上加速器可以使用Arm的NI-700分组片上网络互连进行整合,并支持中断和地址转换。对于片外加速,CSS N2支持组合PCIe Gen5/CXL1.1 PHY,支持连接GPU、TPU、DPU和其他高速设备。这包括对CXL Type3连接的支持,这对于内存扩展、池化和分层用例非常有用。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲CSS N2结构图

3、搭建完整的核心并增强安全性

CSS N2包括Arm的合作伙伴构建专用芯片所需的所有计算子系统元素。这包括通过嵌入式Cortex-M7处理器处理的系统控制和管理。系统控制处理器(SCP)是一个值得信赖的核心,控制所有系统功能,如时钟控制、电源和电压域。可管理性控制处理器(MCP)与外部BMC连接,用于片上管理、RAS、事件记录和通信警报。

4、可靠认证

CSS N2通过了SystemReady SR认证,并带有参考固件堆栈和虚拟固定核心模型。这使合作伙伴能够快速开发核心固件、集成操作系统和服务,并调整启动流程、安全性和电源管理——所有这些都在流片最终芯片之前完成。

CSS N2将Neoverse V2核心、DDR5内存和PCIe Gen5/CXL IO封装到一个性能和功耗平衡的子系统中,支持用于矢量处理和机器学习(ML)、加密增强、内存分区和监控以及高级电源管理,满足5G、DPU、Arm上的云计算和机器学习等的一系列市场需求。

Arm背后的想法是,CSS N2提供一个核心,使公司能够更轻松地使用N2核心的技术开发他们的产品,以获得带有Arm Neoverse N2核心的完整芯片,具有集成的安全和控制系统,并允许每个公司添加其他附加模块。

三、高性能Neoverse V2架构详解:能效翻倍,支持CMN-700网状互连

Arm Neoverse V2 CPU为云端计算、高性能计算和机器学习性能领先而设计,是首款具有Armv9架构的性能、功耗和安全性强化功能的V系列处理器,其性能是Neoverse V1的两倍。

沿袭V系列,V2通过内存标记扩展(MTE)和性能定义功耗管理(PDP)等Armv9功能,提高专用处理和工作负载加速能力。

值得注意的是,相关技术博客称,Neoverse V2拥有几乎无限的扩展能力。与CMN-700核心网状网络搭配使用时,V2可配置多达256个核心和512MB的系统级缓存(SLC)。在V2上,AMBA CHI C2C使用UCIe、CXL、PCIe或定制化PHY连接计算、存储芯片和加速器,进而实现芯片间和芯片外连网。

据Arm介绍,V2核心构建在现有Neoverse架构的功能之上,可提供具有总拥有成本(TCO)优势的高性能,同时支持具有DDR5/HBM3内存、PCIe5 IO和CXL2.0附加内存或相干加速器的多芯片/插槽解决方案。

根据外权威服务器专业评测网站Serve The Home报道,在数据方面,V2的性能相较于V1有了两到三位数的显著提高:

1)在基准测试程序SPEC CPU和SPECRate(速度和吞吐量)分别显示出13%和17%的增长率。

2)在当下流行的分布式内存缓存系统Memcached上进行的测试显示,性能提升高达15%。

3)Web服务器NGINX在V2上性能提升高达32%。

4)由于V2在分支预测、获取和硬件预取方面的改进,在关系型数据库管理系统MySQL的开源平台Percona发行版上显示,V2性能(以每秒事务数衡量)提高了104%。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲V2与V1的测试表现

5)最后,使用XGBoost的机器学习测试发现,V2比V1的性能平均提高了一倍,性能提升两倍。通过全面强化的管道和高达两倍的L2快取大小(每核心2MB),V2在云端和机器学习应用上的性能是V1的两倍。

V2核心为整体Neoverse计算架构带来了重大改进,重点关注提高性能,同时确保微架构的变化不会导致不成比例的高功耗和面积成本。Neoverse V2包含最新的以基础设施为中心的Neoverse V2 CPU核心,实现了Armv9架构的新功能。

结语:搅局数据中心市场,Arm正重新定义芯片开发的“基础设施”

作为全球顶级半导体IP供应商,Arm近年来一直在改良芯片开发的“基础设施”,让基于其IP核心的芯片设计门槛一降再降。此次Arm最新推出的CSS,不仅是其Neoverse产品矩阵的最新创举,也是对数据中心服务器CPU下的一剂猛料。

决战数据中心!Arm放出定制芯片新招式,13个月搞定云端CPU开发

▲Neoverse产品路线图

以前做开发,虽然能拿到Arm的Neoverse服务器CPU参考设计和授权,但其合作伙伴还是需要在一系列开发步骤中投入人力和财力。

而采用像Neoverse CSS N2这样的现成设计后,Arm合作伙伴就能“跳关”开发,也就是不用开发处理器,也不用进行设计验证、第三方IP集成验证、添加接口、晶圆厂集成等繁复步骤,就能开发出满足特定需求、功能齐全的CPU。

这种更加灵活且降低开发门槛的解决方案,让没那么多专业芯片工程师的企业也能参与到定制的服务器CPU设计中,进而有助于扩大Arm在数据中心领域的客户范畴和生态系统。