英伟达A100霸榜MLPerf，打破8项AI基准测试纪录

芯东西（公众号：aichip001）
作者 | 高歌
编辑 | 心缘

芯东西7月1日报道，今天，MLPerf发布了最新的1.0基准测试结果。MLPerf是当前全球最具影响力的AI计算基准评测组织，由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，每年组织全球AI训练和AI推理性能测试并发榜。目前，MLPerf的覆盖了计算机视觉、自然语言处理、推荐系统、强化学习等工作负载和场景。

在MLPerf 1.0测试中，共有8种工作负载，与之前相比增加了会议识别RNN-T和医学图像划分UNet-3D两种。其余6种工作负载为自然语言处理网络BERT、深度学习推荐模型DLRM、对象检测网络SSD和Mask R-CNN、强化学习网络MiniGo和用于图像分类的ResNet-50。

戴尔、富士通、Gigabyte、浪潮、联想、Nettrix和Supermicro等7家厂商采用了英伟达A100 GPU，推出了12套商用系统，占所有提交作品的3/4。英伟达及其合作伙伴也是唯一进行了全部8项测试的企业。英伟达数据中心计算产品管理高级总监Paresh Kharya也对芯东西等媒体分享了，DGX SuperPOD和DGX A100在测试中的表现。

英伟达A100霸榜MLPerf，打破8项AI基准测试纪录 ▲MLPerf8种测试工作负载

一、软硬件齐下手，1年提升3.5倍分数

与去年相比，基于英伟达DGX SuperPOD和DGX A100的系统测试表现均有较大提升。DGX A100是英伟达用于AI工作负载的通用系统，基于英伟达A100 GPU构建。DGX SuperPOD则是英伟达的AI超级计算机方案，采用了基于DGX A100系统和Mellanox网络架构。

在DLRM（深度学习推荐模型）测试中，基于DGX SuperPOD系统得分更是提升了3.5倍。

英伟达A100霸榜MLPerf，打破8项AI基准测试纪录 ▲英伟达MLPerf基准测试数据提升

之所以分数提升较大，很大程度上是因为英伟达在硬件与软件2方面的提升。

具体来说，英伟达通过CUDA Graphs软件包来启动完整的神经网络模型，替代了过去CPU将AI模型分为许多独立部分的做法。CUDA Graphs，是英伟达新的异步任务图像（Task-Graph）编程模型，可以提升内核启动和执行的效率。

另外，英伟达的SHARP（网络内计算数据压缩技术）可以把多个通信作业整合到网络交换机中，减少了CPU的网络流量和等待时间。

英伟达也加大了GPU互连规模，可连接4096个GPU，高于很多系统。此外，A100 GPU的内存带宽也有所提升，达到了2TB/s。

根据最新的TOP500排名，Selene是世界上最快的商业人工智能超级计算机之一，由英伟达开发构建，采用了NVIDIA DGX SuperPOD方案，其算力能够达到63.460 petaflops，也创下了多项纪录。实际上，英伟达及其合作伙伴在商用系统的最新测试中，在所有八个基准测试中都创下了纪录。

英伟达A100霸榜MLPerf，打破8项AI基准测试纪录 ▲英伟达MLPerf基准测试数据

二、台积电携手英伟达，MLPerf助力医疗、制造领域

很多业内人士也就本次MLPerf基准测试发表了相关看法。

瑞典Chalmers University的发言人称，MLPerf基准为多个人工智能平台上提供了横向的比较，展示了各个平台在不同场景中的实际性能。

台积电OPC部门总监Danping Peng也提到其部门正在和英伟达工程团队合作，将麦克斯韦模拟和反向光刻技术引擎移植到GPU上，以发挥机器学习在模型训练和推理方面的潜力。

此外，德国癌症研究中心和三星电子就MLPerf基准对医疗和制造方面的应用进行了分享。

德国癌症研究中心医学图像计算负责人Klaus Maier-Hein说，MLPerf基准为智能医疗保健项目提供了相关的性能数据，加快了项目的研发和应用。

对三星电子来说，MLPerf基准则为其提供了一个开放、直接的评估方法，简化了他们对人工智能计算平台的选择过程。

结语：英伟达AI、超算实力或将进一步增强

在英伟达收购收购Mellanox后，两者的技术整合使英伟达在AI、超算等领域的实力飞速发展。本次英伟达在MLPerf基准测试方面的优秀表现也说明了这一点。

从近期英伟达的种种动向来看，其在AI、超算、数据中心等方面都有着自己的目标。如今，英伟达对Arm的收购也正在审查中，如果成功，也将进一步加强其在上述领域的实力。

一、软硬件齐下手，1年提升3.5倍分数

二、台积电携手英伟达，MLPerf助力医疗、制造领域

结语：英伟达AI、超算实力或将进一步增强

相关推荐