英伟达A100霸榜MLPerf,打破8项AI基准测试纪录

芯东西(公众号:aichip001)
作者 |  
高歌
编辑 |  
心缘

芯东西7月1日报道,今天,MLPerf发布了最新的1.0基准测试结果。MLPerf是当前全球最具影响力的AI计算基准评测组织,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等单位共同成立,每年组织全球AI训练和AI推理性能测试并发榜。目前,MLPerf的覆盖了计算机视觉、自然语言处理、推荐系统、强化学习等工作负载和场景。

在MLPerf 1.0测试中,共有8种工作负载,与之前相比增加了会议识别RNN-T和医学图像划分UNet-3D两种。其余6种工作负载为自然语言处理网络BERT、深度学习推荐模型DLRM、对象检测网络SSD和Mask R-CNN、强化学习网络MiniGo和用于图像分类的ResNet-50。

戴尔、富士通、Gigabyte、浪潮、联想、Nettrix和Supermicro等7家厂商采用了英伟达A100 GPU,推出了12套商用系统,占所有提交作品的3/4。英伟达及其合作伙伴也是唯一进行了全部8项测试的企业。英伟达数据中心计算产品管理高级总监Paresh Kharya也对芯东西等媒体分享了,DGX SuperPOD和DGX A100在测试中的表现。

英伟达A100霸榜MLPerf,打破8项AI基准测试纪录▲MLPerf8种测试工作负载

一、软硬件齐下手,1年提升3.5倍分数

与去年相比,基于英伟达DGX SuperPOD和DGX A100的系统测试表现均有较大提升。DGX A100是英伟达用于AI工作负载的通用系统,基于英伟达A100 GPU构建。DGX SuperPOD则是英伟达的AI超级计算机方案,采用了基于DGX A100系统和Mellanox网络架构。

在DLRM(深度学习推荐模型)测试中,基于DGX SuperPOD系统得分更是提升了3.5倍。

英伟达A100霸榜MLPerf,打破8项AI基准测试纪录▲英伟达MLPerf基准测试数据提升

之所以分数提升较大,很大程度上是因为英伟达在硬件与软件2方面的提升。

具体来说,英伟达通过CUDA Graphs软件包来启动完整的神经网络模型,替代了过去CPU将AI模型分为许多独立部分的做法。CUDA Graphs,是英伟达新的异步任务图像(Task-Graph)编程模型,可以提升内核启动和执行的效率。

另外,英伟达的SHARP(网络内计算数据压缩技术)可以把多个通信作业整合到网络交换机中,减少了CPU的网络流量和等待时间。

英伟达也加大了GPU互连规模,可连接4096个GPU,高于很多系统。此外,A100 GPU的内存带宽也有所提升,达到了2TB/s。

根据最新的TOP500排名,Selene是世界上最快的商业人工智能超级计算机之一,由英伟达开发构建,采用了NVIDIA DGX SuperPOD方案,其算力能够达到63.460 petaflops,也创下了多项纪录。实际上,英伟达及其合作伙伴在商用系统的最新测试中,在所有八个基准测试中都创下了纪录。

英伟达A100霸榜MLPerf,打破8项AI基准测试纪录▲英伟达MLPerf基准测试数据

二、台积电携手英伟达,MLPerf助力医疗、制造领域

很多业内人士也就本次MLPerf基准测试发表了相关看法。

瑞典Chalmers University的发言人称,MLPerf基准为多个人工智能平台上提供了横向的比较,展示了各个平台在不同场景中的实际性能。

台积电OPC部门总监Danping Peng也提到其部门正在和英伟达工程团队合作,将麦克斯韦模拟和反向光刻技术引擎移植到GPU上,以发挥机器学习在模型训练和推理方面的潜力。

此外,德国癌症研究中心和三星电子就MLPerf基准对医疗和制造方面的应用进行了分享。

德国癌症研究中心医学图像计算负责人Klaus Maier-Hein说,MLPerf基准为智能医疗保健项目提供了相关的性能数据,加快了项目的研发和应用。

对三星电子来说,MLPerf基准则为其提供了一个开放、直接的评估方法,简化了他们对人工智能计算平台的选择过程。

结语:英伟达AI、超算实力或将进一步增强

在英伟达收购收购Mellanox后,两者的技术整合使英伟达在AI、超算等领域的实力飞速发展。本次英伟达在MLPerf基准测试方面的优秀表现也说明了这一点。

从近期英伟达的种种动向来看,其在AI、超算、数据中心等方面都有着自己的目标。如今,英伟达对Arm的收购也正在审查中,如果成功,也将进一步加强其在上述领域的实力。