NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走

智东西(公众号:zhidxcom
| 林卓玮

智东西1116日消息,在今天的 SC20(Supercomputing Conference)超级计算大会上,NVIDIA在加速计算领域、HPC、网络三大领域分别发布了新一代A100 80GB GPU处理器、新一代DGX Station A100DGX A100 640GB移动数据中心、Mellanox 400G InfiniBand系统多款重磅新品,以应对全球爆发式增长的数据处理需求和日益凸显的机器学习需要。

其中,NVIDIA A100 80GB GPU搭配 TC32核心,AI吞吐量提高达20倍,HPC性能提升达2.5倍,高带宽内存翻倍至80GB,内存带宽每秒超过2TB。NVIDIA DGX Station A100则有着强劲性能和高度集成性,尺寸虽小,AI性能却达到了2.5 petaflops。Mellanox 400G InfiniBand产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍。

NVIDIA加速计算产品管理总监Paresh KharyaDGX系统副总裁兼总经理Charlie Boyle、网络事业部高级副总裁Gilad Shainer对这三大发布进行了详细介绍。

NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走
▲NVIDIA加速计算产品管理总监Paresh Kharya在会上发言

一、NVIDIA A100 80GB GPU:高带宽内存翻倍,内存带宽每秒超2TB

1、第三代Tensor Core核心:AI吞吐量提高达20倍,HPC性能提升达2.5倍;

2、 更大、更快的HBM2e GPU内存:高带宽内存翻倍至80GB,内存带宽每秒超过2TB

3、第三代NVLinkNVSwitchGPU之间带宽增加,GPU数据传输速度提高。

NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走
▲官方发布NVIDIA A100 80GB GPU的主要优点

NVIDIA透露,源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想、云达科技、超微等全球领先系统供应商将于2021年上半年发行基于HGX A100集成底板的系统,每个集成底板将搭载4-8A100 80GB GPU

官方消息称,这款产品预计将于本季度发货。

今年5月,英伟达在线上召开了GTC大会,并推出基于安培架构的7nm A100显卡,AI训练速度提升20倍。

今天, NVIDIA在前代的基础上推出了A100 80GB GPU,实现性能的大幅提升。

全新A100采用HBM2e技术,将GPU内存在上一代A100 40GB GPU的基础上提升了一倍,达到80GB,每秒能提供超过2TB 的内存带宽。

HPC高性能计算方面,如果以2016年推出的P100处理器为基准,A100 处理器在主流HPC应用上的性能已提升了10倍。

A100 处理器搭载全新TF32核心,将上一代Volta架构的AI吞吐量提高多达20倍。通过FP64(双精度运算),将HPC性能提高多达2.5倍,达到19.5 TFlops

通过INT8(一种低精度的定点计算)A100 处理器将AI推理性能提高多达20倍,达到1248 TOPS,并且支持BF16数据格式,能满足医疗、AI推理、云存储、计算机视觉、模拟技术等多个研究领域日益增长的计算需求。

此外,A100 处理器在保障更大计算能力的前提下,还做到了节能。其能源效率达到26.2 GF/W,在短短六个月内成功在上一代的基础上将能效提升了25%

据了解,这款GPU 处理器还会搭载在同时发布的另一款新品DGX Station A100移动数据中心上,能在移动场景下提供超强算力。

NVIDIA加速计算产品管理总监Paresh Kharya在会上讲到:我们想把HPC、数据分析和深度学习计算技术结合起来,共同推动科学进步。

二、NVIDIA DGX Station A100:一台能推着走的千万亿级集成型AI工作组服务器

1、千兆级工作组服务器:AI性能可达2.5 petaflops

2、第三代NVLink:四个A100 GPU通过NVLink实现完全互连,内存最高可达320GB640GB

3、两种规格:分为普通版和SuperPOD版本,满足不同需求;

4、MIG技术:最多分割为28GPU实例,每个实例的内存达到10GB

5、随时随地:高度集成、体积小、冷却散热,同时支持远程互联和遥控。

NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走
▲第二代NVIDIA DGX Station A100

第二代NVIDIA DGX Station A100也在此次线上大会上登场。

这次英伟达共发布两个版本,DGX Station A100DGX A100 640GB,并表示可以为320GB版本用户提供付费服务,升级到最新的DGX Station A100 640GB版本。

DGX系统副总裁兼总经理Charlie Boyle在会上提到,配有A100 80GB GPU NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上,以加速推进医疗保健领域研究,同时还将运用于佛罗里达大学的全新HiPerGator AI超级计算机上,从而助力这一阳光之州开展AI赋能的科学发现。

DGX Station尽管身形娇小,但运算性能强劲。DGX Station A100AI性能可达2.5 petaflops,即每秒能实现两千五百万亿(=10^15)次的浮点运算。

截至目前,DGX Station A100是唯一能支持NVIDIA多实例GPUMIG)技术的工作组服务器。

为支持更大规模的数据中心工作负载,DGX Station A100将配备四个NVIDIA A100 80GB GPU处理器,每个处理器最多分割为7MIG

因此,单一DGX Station A100最多能分割为28个独立GPU实例来执行并行任务,从而在处理负载较小的工作时,实现GPU的最佳利用率,同时确保AI团队能够使用更大规模的数据集和模型来提高准确性。

据称,这一代产品GPU之间的双向带宽达到200 GB/s,近乎是PCIe Gen4的三倍。 

在实现性能大幅提升的同时,DGX Station通过使用冷却剂,免去了配备散热系统的烦恼。

此外,DGX Station A100还具有远程管理功能,可供分布全球各地的科研团队远程协作使用。

NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走

NVIDIA DGX SuperPOD系统将首先运用在英国的Cambridge-1超级计算机上。

三、Mellanox 400G InfiniBand高效节能

第七代Mellanox 400G InfiniBand是英伟达应对计算需求猛增推出的网络解决方案,其产品架构包括适配器、DPU、交换机和网线。运用InfiniBand技术,Mellanox 400G InfiniBand  400Gb/s产品提供了超低延迟,并在上一代的基础上实现了数据吞吐量翻倍,同时增加了新的NVIDIA网络计算引擎,实现了额外的加速。

Mellanox NDR 400G InfiniBand交换机的端口密度和AI加速能力分别是上一代的3倍和32倍。此外,它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64 petabits/s,使得用户能够以更少的交换机,运行更大的工作负载。

Mellanox InfiniBand NDR在节省成本的同时,还提高了能源效率。

其中,运用Mellanox InfiniBand NDR1500 GPUs以内的数据中心在成本控制方面较上一代提升20% ,节能方面较上一代提高20%4000 GPUs 以内的数据中心在成本控制方面较上一代提升40% ,节能方面较上一代提高60%

微软Azure、美国Los Alamos国家实验室等全球大型科研机构均表现出对下一代Mellanox InfiniBand技术的关注。

微软公司Azure HPCAI产品负责人Nidhi Chappell谈及InfiniBand技术时说道HPC领域,Azure HBv2 VM率先将HDR InfiniBand引入云端,并为MPI客户应用在云上实现了超算级规模和性能,展示出可扩展MPI HPC应用到超过80,000核的能力。

NVIDIA发布多款超算和AI加速新品!千兆级工作组服务器可以推着走
Mellanox 400G InfiniBand产品架构

总结:NVIDIA数据中心业务势头强劲,Mellanox或将成为新增长点

2019年,NVIDIA宣布以69亿美元现金收购Mellanox,在经历了漫长的全球反垄断审批流程之后,这笔交易终于在今年四月尘埃落定。当初,NVIDIA收购Mellanox的原因不仅仅是技术层面的,更是因为它和自己数据中心业务的用户群体高度重合,二者的结合也因而产生了强大的协同效应。

此次发布会推出的Mellanox 400G InfiniBand便是二者协作的产物。它的出色表现,加上英伟达2019年财报展现出的数据中心业务的强劲增长趋势,恰好指明了英伟达未来几年的业务重心或许就在数据中心领域,而Mellanox或将成为新增长点。