超算TOP500发榜!70%系统采用NVIDIA技术,黄仁勋预告“模拟地球”计划

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西11月16日报道,本周SC21高性能计算大会发布了最新TOP500榜单,其中,NVIDIA技术为355套超级计算机系统提供加速,占榜单的70%以上,而新增系统中,90%以上都采用了NVIDIA的技术。

对比6月份发布的TOP500榜单上342个系统(占榜单68%)使用NVIDIA技术,增长趋势明显。

NVIDIA在全球最节能系统Green500榜单上也继续保持领先优势,占据了榜单排名前25名系统中的23套,与6月份持平。平均来看,采用NVIDIA GPU的系统能耗效率比非GPU系统高3.5倍。

来自微软的GPU加速Azure超级计算机在榜单上排名第十。这是基于云的系统首次跻身前10名,新一代云原生系统就此崭露头角。

此外,NVIDIA还宣布独立出资打造全球最强大的AI超级计算机Earth-2,用于预测气候变化。它将在NVIDIA的虚拟世界模拟引擎Omniverse中创造一个地球的数字孪生。

一、助力科学应用程序性能提升16倍

人工智能正带来一场科学计算的革命。近年来,研究高性能计算和机器学习的论文数量激增,从2018年的约600篇增长到2020年的近5000篇。

超算TOP500发榜!70%系统采用NVIDIA技术,黄仁勋预告“模拟地球”计划

HPL-AI、MLPerf HPC等新基准也强调了高性能计算和AI工作负载的持续融合。

作为一个融合了高性能计算和人工智能工作负载的新基准,HPL-AI使用了深度学习和许多科学与商业工作的基础——混合精度计算,同时还提供高性能计算基准传统的标准标尺——双精度计算的高度准确性。

MLPerf HPC基准适用于通过AI实现超级计算机模拟加速和增强的计算方式,主要被用来测试高性能计算中心天体物理学、天气和分子动力学三大关键工作负载的性能表现。

NVIDIA通过GPU加速处理、智能网络、GPU优化应用程序和支持AI和高性能计算融合的库来解决整个堆栈的问题。这一方法提升了工作负载的性能表现,并推动了科学突破。

GPU的并行处理能力再加上超过2500个GPU优化应用程序,在多数情况下可以让用户把高性能计算任务的时间从几周减少到几小时。加上NVIDIA持续优化CUDA-X库和GPU加速应用程序,用户GPU架构性能还会有进一步提升。

通过全栈创新,NVIDIA可助力超级计算机在科学应用程序上实现高达16倍的性能提升。

超算TOP500发榜!70%系统采用NVIDIA技术,黄仁勋预告“模拟地球”计划

NVIDIA通过NGC目录中的容器提供最新版本的人工智能和高性能计算软件。用户只需在数据中心或云端的超级计算机上拖拽并运行应用程序,即可实现性能的快速提升。

二、Atos与NVIDIA成立卓越人工智能实验室,攻克五大关键领域

人工智能在高性能计算中的应用能帮助研究人员加快模拟速度,同时保持传统模拟方法的准确性。

今日,Atos和NVIDIA宣布成立卓越人工智能实验室(Excellence AI Lab,简称EXAIL),该实验室将汇聚一批科学家和研究人员,助力推进欧洲计算技术、教育和研究的发展。

该实验室的首批研究项目将集中在高性能计算和AI的进步所推动的五大关键领域:气候研究、医疗和基因组学、与量子计算的结合、边缘人工智能/计算机视觉以及网络安全

Atos公司将利用NVIDIA基于Arm架构的Grace CPU、NVIDIA下一代GPU、Atos BXI E级互联技术和NVIDIA Quantum-2 InfiniBand网络平台,开发一台E级计算级别的BullSequana X超级计算机

(1)气候研究:来自Atos和NVIDIA的研究人员将在欧洲最快的超级计算机Jülich超级计算中心上,运行新的AI和深度学习模型。JUWELS Booster系统基于Atos的BullSequana XH2000平台,AI算力近2.5 Exaflops,搭载3744个NVIDIA A100 Tensor Core GPU,并采用NVIDIA Quantum InfiniBand网络,将有助于更深入地了解气候变化,且对飓风、极端降水、炎热和寒潮等事件进行更准确的长期预测。

(2)医学研究:Atos生命科学卓越中心已经与40家领先机构合作,利用高性能计算、量子计算和AI来推进医学成像、基因组学和制药领域的发展。EXAIL将利用Atos的先进计算解决方案与NVIDIA Clara医疗应用框架,帮助医疗研究人员和供应商利用嵌入式、边缘、数据中心和云平台,加速药物研发并设计先进的诊断解决方案。

(3)量子计算:Atos为即将到来的量子计算机时代开发了量子软件开发和模拟设备——的量子机器学习,使研究人员和工程师能够开发和实验量子软件。它将使用NVIDIA GPU助力大幅提高量子模拟的速度和规模。这将加速量子算法、量子信息科学、新的量子处理器架构以及量子-GPU混合系统架构的研究。

(4)计算机视觉:利用Atos的边缘设备,例如其在NVIDIA BlueField DPU上运行的BullSequana Edge,EXAIL的研究团队将协力加速计算机视觉和5G无线基础设施。Atos全球六个专门研究计算机视觉的实验室将配备最新NVIDIA Fleet Command技术,用于在分布式边缘基础设施上安全地部署和管理AI应用。

(5)网络安全:EXAIL研究团队将利用NVIDIA Morpheus开放式AI框架,开发一个新的数据中心到边缘的零信任网络安全平台,以及新的人工智能模型,来即时检测新的网络安全威胁。

三、倾注大量资源,打造支撑“另一个地球”的AI超算

越来越多的研究人员开始利用人工智能(AI)来加快研究的速度,比如今年超算领域最有声望的戈登·贝尔奖决赛的四组晋级团队。

各大企业正在竞相建造E级AI计算机,以支持这种融合高性能计算和AI的新模式。

为推动这一趋势,上周NVIDIA推出了一系列用于高性能计算的新的库和软件开发工具套件。

3个新库分别为:可提高规模高达10万亿美元的物流行业的运营效率的ReOpt,可加速量子计算研究的cuQuantum,为Python社区的科学家、数据科学家、机器学习和人工智能研究人员加速NumPy的cuNumeric。

此外,NVIDIA推出一个新框架Modulus,能构建并训练了一个内嵌物理信息的机器学习模型,可以用来学习并遵循物理定律。

其虚拟世界模拟和3D工作流协作平台Omniverse则负责把一切整合到一起,可用于模拟仓库、工厂、物理和生物系统、5G边缘、机器人、自动驾驶汽车甚至是虚拟形象的数字孪生。

NVIDIA上周宣布,将利用Omniverse构建一台名为Earth-2的超级计算机,通过创建一个地球数字孪生来预测气候变化。

超算TOP500发榜!70%系统采用NVIDIA技术,黄仁勋预告“模拟地球”计划

在NVIDIA创始人、CEO黄仁勋看来,气候灾害已成为一种“新常态”,为了制定最佳策略来减缓和适应气候变化,我们需要能够预测全球不同区域几十年气候变化的气候模型。

与主要模拟大气物理的天气预测不同,气候模型是针对大气、水、冰、陆地和人类活动,从物理、化学和生物学等方面进行数十年的模拟。

目前,气候模拟的分辨率为10到100公里。但是要模拟全球从海洋、海冰、陆地表面和地下水到大气和云层的整个水循环过程,则需更高分辨率。

科学家估计,要达到相应分辨率,需要比目前可用算力高出数百万到数十亿倍的算力。如果按照算力每5年提升10倍的常规标准来算,实现这一目标需几十年的时间。

“通过结合GPU加速计算、深度学习和内嵌物理信息的神经网络的突破以及AI超级计算机三大技术,再加上大量可供学习的观测和模型数据,我们可以实现百万倍的加速。”黄仁勋说,“有了超分辨率技术,我们或许就能实现超分辨率气候建模所需的10亿倍量级的飞跃。”

因此,NVIDIA将全力投入大量资源,使NVIDIA能够在计算科学领域能够涉猎更广、更专精,以融入世界气候科学的社区。NVIDIA将打造全球最强大的AI超级计算机,系统命名为Earth-2或E-2,专门用来预测气候变化。它将在Omniverse中创造一个地球的数字孪生。

今年早些时候,NVIDIA在英国推出了全球医疗研究领域最强大的AI超级计算机Cambridge-1。黄仁勋称,E-2将成为专注于气候变化研究领域的Cambridge-1,“我们发明的迄今为止所有技术都将用于实现Earth-2。我想,技术最重要的用途莫过于此。”

目前Earth-2的选址尚未确定,关于Earth-2的更多细节信息将在2022年的GTC大会上公布。

四、云原生超级计算:多所大学采用NVIDIA系统和网络拓展研究工作

随着超级计算机在数据分析、人工智能、模拟和可视化方面承担越来越多的工作负载,CPU不得不在大型复杂的系统上支持更多的通信任务,而数据处理器DPU可卸载多种操作,为CPU减负。

超算TOP500发榜!70%系统采用NVIDIA技术,黄仁勋预告“模拟地球”计划

作为一个完全集成的片上数据中心平台,NVIDIA BlueField DPU可以卸载和管理数据中心的基础设施任务,释放主机的处理器资源,从而实现更强的安全性和更高效的超级计算编排工作。

该架构与NVIDIA Quantum InfiniBand平台相结合,可提供最佳裸机性能,同时原生支持多节点租户隔离。Quantum InfiniBand平台提供了可预测的裸机性能隔离,并采用零信任安全防护,使新系统更安全。

BlueField DPU将用户应用与基础设施任务隔离开来。最新的BlueField软件平台NVIDIA DOCA 1.2支持下一代分布式防火墙和更广泛的线速数据加密。而NVIDIA Morpheus则会假设入侵者已经进入数据中心,将利用基于深度学习的数据科学来实时检测入侵者的活动。

NVIDIA Quantum-2于上周发布,是一个400Gbps InfiniBand平台,由Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU以及用于新网络架构的软件组成。它提供了裸机高性能和安全多租户优势,可以让下一代超级计算机实现安全性、云原生以及更高的效率。

目前多所大学已采用NVIDIA的上述系统及相关技术。例如,美国南方卫理公会大学(SMU)正在安装一台NVIDIA DGX SuperPOD以支撑机器学习项目;密西西比州立大学和德克萨斯农工大学均计划使用NVIDIA Quantum-2网络平台;英国莱斯特大学的一台超算也刚刚升级了其InfiniBand网络。

结语:高性能计算与AI正推动全球超算飞速变化

总体来看,从科学模拟、可视化、数据分析再到机器学习,各种现代计算的工作负载正在推动超级计算中心、云服务提供商和企业重新思考他们的计算架构。超算不仅被用在科研,也开始在产业应用上取得进展。

仅靠处理器、网络或软件优化已经无法满足研究人员、工程师和数据科学家的最新需求。数据中心取而代之,成为新的计算单元,因此企业必须关注整个技术堆栈。而NVIDIA在全栈计算方面的布局,使其开始发挥出更广泛的价值。

从全球最强系统的最新排名来看,NVIDIA技术在新一代超级计算机继续凸显关键作用,通过推动高性能计算和AI融合的趋势,加速更多垂直领域的探索与进步。