Grace CPU推迟至下半年发布，60%功率下性能提升1.3倍！

芯东西（公众号：aichip001）
编译 | 段祎
编辑 | Panken

芯东西3月23日消息，据Tom’s Hardware报道，近日，美国人工智能训练芯片巨头英伟达CEO黄仁勋在GTC大会上就其即将推出的基于Arm架构的Grace CPU延迟发货一事向Tom’s Hardware的记者Paul Alcorn做出了解释，称芯片延迟发布是正常情况，且由于此次研制的Grace芯片添加了许多创新设计，工作量增大，相应的制造时间有所延长。

在本周二的GTC大会上，黄仁勋首次展示了基于Arm架构的Grace芯片，该芯片在仅使用60%的功率下比基于x86架构的芯片快1.3倍。并且Grace CPU和Hopper GPU的新设计可以让芯片实现速度和效率兼顾的共享内存中保存的信息，同时速度是PCIe接口的七倍。

一、推迟发布是正常现象，基于Arm架构带来更大工作量

谈及Grace CPU和Grace Hopper Superchip系统延迟交付终端市场的问题。他解释道：“Grace和Grace Hopper都在生产中，‘硅片现在正在工厂里飞来飞去’。系统正在制作中，我们发布了很多公告。世界上的原始设备制造商（OEM）和计算机制造商正在构建它们。”黄仁勋还说，英伟达只用了两年的时间来开发芯片，考虑到现代芯片通常需要多年的设计周期，这个时间相对较短。

Grace CPU推迟至下半年发布，60%功率下性能提升1.3倍！

▲Grace CPU（图源：Tom’s Hardware）

此前，美国芯片制造巨头AMD和英特尔开发的CPU在芯片量产上市前就会被部署到超大规模计算的设备上，不过，目前英伟达Grace芯片是否已经提供给客户使用还是未知的，黄仁勋透露他们正在向客户提供芯片样品。

一般而言，像英特尔这样的企业，也经常会延迟推出芯片，即便是基于其几十年来成熟的在硬件和软件平台占主导地位的x86架构构建芯片，推出新芯片的难度也并不小。

相比之下，英伟达的Grace和Grace Hopper芯片在芯片设计方面注入了许多的全新思考，它采用了创新的芯片间互连技术。英伟达使用Arm指令集也意味着软件优化和迁移的工作更重，该公司需要构建一个全新的平台来生产该芯片。

二、Grace芯片消耗60%功率，数据处理速度快一倍多

黄仁勋在他的其余回应中提到了关于芯片设计思考的一些内容，他说：“我们从Superchips（超级芯片）而不是chiplet（小芯片）开始，是因为我们想要构建的东西很大，不过这两种产品现在都在生产中。英伟达正在做很多测试，软件也正在被迁移到芯片，同时英伟达向客户提供芯片样品。在会上，我用确切的数字展示了Grace芯片的各大性能优势，但我不想堆砌数字来增加演讲的负担，但芯片的性能真的非常棒。”

在问答环节中，黄仁勋声称该芯片在HiBench Apache Spark内存密集型基准测试中比下一代x86服务器芯片数据处理速度快1.2倍，在谷歌微服务通信基准测试（Google microservices communication benchmark）中快1.3倍，同时只消耗了60%功率。

他说这允许数据中心将1.7倍以上数量的Grace芯片部署到功率受限的装置中，每台服务器的吞吐量提高了25%。他还说Grace在计算流体动力学（CFD）工作负载方面的速度提高了1.9倍。

三、为云计算、AI定制芯片，兼具低功耗、高性能

Grace芯片在某些应用场景中虽然表现出超强的性能和效率，但英伟达并没有计划将它们定位到通用服务器市场。该公司针对特定使用场景定制了芯片，例如人工智能和云计算场景，这些场景需要支持卓越的单线程和内存处理性能以及出色的能效。

黄仁勋告诉说：“现在几乎每个数据中心都受到功率限制，我们设计的Grace在功率受限的环境中表现出色”，“在那种情况下，你必须既有非常高的性能，又必须有非常低的功率，而且效率也要非常高。因此，与最新一代CPU相比，Grace系统的功率/性能效率大约高其两倍。”

Grace CPU推迟至下半年发布，60%功率下性能提升1.3倍！

▲相同功耗下，英伟达Grace CPU性能比较图（图源：Tom’s Hardware）

“而且它是针对不同的场景而设计的，所以这是非常好理解的。”黄仁勋继续说道，“例如，我刚才描述的内容对大多数企业来说并不重要。但它对提供云服务的企业来说很重要，对电力消耗大的数据中心也很重要。”

能源效率比以往任何时候都更受关注，黄仁勋说，他们最近评测过的AMD EPYC Genoa和英特尔的Sapphire Rapids等芯片的功率现在分别达到400瓦和350瓦。这需要特殊的新空气冷却解决方案来控制标准设置下的巨大功耗，并为达到芯片的最高性能提供液体冷却。

相比之下，Grace的低功耗将使芯片更容易冷却。正如GTC大会上首次展示的那样，英伟达的144核Grace封装为5英寸x8英寸，可以装入体积非常小的被动冷却模块中。这些模块仍然依靠空气冷却，但两个模块可以在单个超薄的1U机箱中进行空气冷却。

四、同时嵌入CPU、GPU，芯片间互联速度快7倍

英伟达还在GTC大会上首次展示了其Grace Hopper 超级芯片。Superchip在同一个封装上结合了Grace CPU和Hopper GPU，这两个模块就可以装入一个服务器机箱中。

Grace CPU推迟至下半年发布，60%功率下性能提升1.3倍！

▲Grace Hopper（图源：Tom’s Hardware）

这种设计的最大优势是使CPU与GPU的结合更连贯协调，提供更低延迟的芯片与芯片之间的连接，其接口速度是PCIe接口的七倍，之前的设计无法实现速度和效率兼顾以共享内存中保存的信息，而现在CPU与GPU的结合成功解决了这一问题。

黄仁勋解释说，这种方法非常适合人工智能、数据库、推荐系统和大型语言模型（LLM），所有这些对这项具有新设计的芯片都有着巨大的需求。采用新设计的Grace芯片通过允许GPU直接访问CPU的内存，简化了数据传输以提高性能。

英伟达的Grace芯片可能有点落后于其此前制定的发布计划，由于芯片制造商和原始设备制造商（OEM）在供应链中的关系，芯片制造商设计芯片并将设计方案交付给OEM，英伟达和华硕、Atos、技嘉、HPE、Supermicro、QCT、Wiston和Zt密切合作，这些合作伙伴都在为市场准备OEM系统，OEM系统现在预计将在今年下半年推出，但英伟达尚未说明给到这些合作伙伴芯片的确切时间。

结语：Grace芯片性能优势显著，推迟发布影响较小

各大芯片公司新芯片的研发通常需要较长的时间周期，再加上运输链和设计难度的影响，这些公司往往会被迫推迟芯片发布时间。对英伟达此次基于Arm架构的Grace芯片发布延迟，黄仁勋依旧持乐观态度，对外只是戏称“硅”正在工厂“起飞”，预计今年下半年正式推出Grace芯片。

据黄仁勋介绍，此次Grace芯片仅在60%的低能耗下，速度就能简单超越下一代x86芯片。同时，Grace的低功耗将使芯片更容易冷却。Grace CPU和Hopper GPU的新设计可以实现共享内存中保存的信息，增强了CPU+GPU内存一致性。相比市面上现有的芯片，英伟达的Grace芯片性能优势明显，尽管此次新芯片延迟发货，但对英伟达影响似乎并不大，我们拭目以待下半年Grace芯片发布。

来源：Tom’s Hardware

一、推迟发布是正常现象，基于Arm架构带来更大工作量

二、Grace芯片消耗60%功率，数据处理速度快一倍多

三、为云计算、AI定制芯片，兼具低功耗、高性能

四、同时嵌入CPU、GPU，芯片间互联速度快7倍

结语：Grace芯片性能优势显著，推迟发布影响较小

相关推荐