NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产

芯东西(ID:aichip001)
作者 |  心缘
编辑 |  漠影

芯东西6月1日报道,今日下午,NVIDIA在台北国际电脑展Computex 2021上推出托管在云端的开发中心NVIDIA Base Command Platform,帮助企业快速将AI项目从原型快速投入生产。

此外,NVIDIA宣布NVIDIA认证系统计划进一步扩展,现已包含50多种面向企业数据中心的NVIDIA认证系统,获得认证的数十款全新服务器可运行NVIDIA AI企业级软件。

研华科技、Altos、永擎电子、华硕、戴尔科技、技嘉科技、慧与、联想、云达科技、超微等公司的NVIDIA认证系统数量日益提升,包括一些在主流数据中心使用的主流x86服务器,为医疗、制造、零售和金融服务等行业的AI应用提供支撑。

首批NVIDIA认证系统将采用NVIDIA BlueField-2 DPU,用于提升安全性。多家全球知名服务器制造商均于今日发布了采用NVIDIA BlueField-2 DPU的新系统。

NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产▲数据处理器NVIDIA BlueField-2 DPU

一、NVIDIA和NetApp提供订阅服务,将推出面向公有云基础设施的各类集成

“世界级的AI开发工作需要强大的计算基础设施,并且至关重要是,让每一家公司和他们的客户都能使用和获得这些资源,从而让AI技术为其所用。”NVIDIA企业计算负责人Manuvir Das说。

NVIDIA DGX是专为AI计算而优化的系统。自2016年推出DGX以来,许多处于AI前沿的行业公司均在使用DGX。如今,DGX融合了来自全球成千上万个系统的数亿小时的使用经验,其AI性能的巅峰是由多个DGX节点组成的集群DGX SuperPOD。

实现DGX普及的第一步,是让这种同类性能最好的机器更易获取。为了使其便于使用,NVIDIA打造了一种名为Base Command Platform的软件堆栈。

这是一款基于NVIDIA加速计算的云托管解决方案,专为托管在本地或云端的大规模、多用户、多团队AI开发工作流程设计,可以降低AI工作流程管理的复杂性,使得数据科学家和研究人员能够将更多的时间用于开发他们的AI项目,减少管理他们机器的时间,提高生产力。

Manuvir Das说,多年来,NVIDIA内部一直在使用Base Command Platform,在数千名数据科学家之间共享SuperPOD,这些数据科学家已经运行了一百多万项作业。

Base Command Platform现可通过NVIDIA和NetApp联合提供的高级月度订阅来获取,通过附带NetApp解决方案的Base Command Platform,将能利用具有破纪录性能的NVIDIA DGX SuperPOD AI超级计算机和NetApp数据管理服务,帮助客户更轻松地部署AI并将其应用到工作中。

该订阅模式现处于抢先体验阶段。客户可以一次体验数月的SuperPOD功能,或SuperPOD某个较小部分的功能。NVIDIA希望借此模式使更多客户体验SuperPOD的独特功能。

NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产

亚马逊和谷歌云都计划在其云端GPU实例集群中添加对Base Command Platform的支持,谷歌云将在今年晚些时候为客户提供真正的混合AI体验。

谷歌云机器学习基础设施产品管理总监Manish Sainani提到:“这款混合型AI产品,可以使得企业只需编写一次就能在任何地方运行,灵活接入多个NVIDIA A100 Tensor Core GPU,通过采用按需的加速计算,企业可以加快AI开发速度。”

Base Command Platform为整个AI开发提供了统一的视图和简单的界面。该视图通过图形用户界面和命令行API,以及综合监控和报告仪表盘,来促进资源的轻松共享。

包括NVIDIA NGC的AI和分析软件目录、与MLOps软件集成的API、Jupyter笔记本等在内的一系列丰富的AI和数据科学工具,能帮助研究人员可以更快的计划和安排工作负载、完善模型和获得洞察。

二、首批NVIDIA认证系统用BlueField-2 DPU提升安全性

在普及DGX使用时,NVIDIA更大的目标是将DGX分解成经AI优化的较小计算实例,方便系统提供商可以针对不同的业务场景,将计算实例组合,以适应不同计算需求,同时为客户增加独特的增值功能。

首先,NVIDIA将多个GPU相结合的GPU板产品,化为一个紧密互连的计算结构,即A100。

接着,NVIDIA进一步将A100分解为较小外形的GPU,如A30,它的功耗、成本更低,同时仍有强大的加速性能。

最后,NVIDIA已将DGX SuperPOD中的BlueField-2 DPU产品化,现可在各种服务器中使用。

NVIDIA BlueField DPU将基础设施任务从CPU转移至DPU,使更多的服务器CPU核可用于运行应用程序,从而提高服务器和数据中心的效率。

该DPU为每个服务器配备了一台“计算机前的计算机”,以提供独立、安全的基础设施服务,并与服务器应用域安全隔离,在虚拟化和裸金属服务器上实现了无代理应用隔离、安全隔离、存储虚拟化、远程管理和遥测。

今天,NVIDIA宣布将扩展NVIDIA认证计划,增加NVIDIA BlueField DPU系统今年下半年,几家全球领先的系统制造商将首次发布多款经过新一类NVIDIA认证系统的服务器。这类新认证系统将通过BlueField-2 DPU(数据处理器),在网络、存储和安全性能上实现突破。

通过卸载CPU的工作任务,单一BlueField-2 DPU可以提供多达125个CPU核才能实现的数据中心服务,从而释放服务器CPU周期,以支持各种关键业务应用。未来,DPU将成为数据中心和边缘计算系统中各个服务器的重要组件。

华硕、戴尔科技、技嘉、云达科技和超微均已宣布将提供采用NVIDIA BlueField-2 DPU加速的服务器。

NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产

BlueField-2 DPU也得到了红帽、VMware等软件基础设施供应商的广泛支持。例如,为协助开发者构建支持BlueField-2 DPU的应用程序,红帽免费为开发者提供针对红帽企业版Linux操作系统的红帽开发者订阅版。

今年,NVIDIA发布了第一版DOCA,即BlueField的SDK。客户和软件制造商可使用NVIDIA DOCA SDK轻松地对BlueField DPU进行编程。

NVIDIA期望DOCA之于DPU,就像CUDA之于GPU一样,为数百万开发者通过持久一致的SDK,使之能平滑使用一代又一代的BlueField。

该片上数据中心体系架构可简化应用开发,并且实现前后兼容,包括兼容预计将在2022年推出的NVIDIA BlueField-3 DPU,以及未来所有的BlueField DPU。

三、NVIDIA认证将于明年扩展至Arm CPU服务器

NVIDIA还宣布,NVIDIA认证计划会扩展至采用基于Arm CPU的加速系统。

随着CPU和DPU加速器承担更多AI计算工作负载,主机CPU不仅被视作计算引擎,将其视为编排器的做法变得更加实用。

为了将Arm生态系统扩展至企业、实现高性能AI计算,技嘉科技和纬颖科技计划将提供新的服务器,其采用基于Arm Neoverse的CPU、NVIDIA Ampere架构GPU和/或BlueField-2 DPU。

这款服务器预计将于明年上市,届时将被提交至NVIDIA进行认证。

NVIDIA还同技嘉科技合作提供一款Arm HPC开发者套件,为HPC、AI和科学计算应用开发提供硬件和软件一体化的平台。

该平台经NVIDIA验证,可满足严苛的HPC应用要求,它包含一个来自Ampere Computing的基于Arm Neoverse的Ampere Altra处理器、两个A100 GPU、两个BlueField-2 DPU以及NVIDIA HPC SDK,准备适用于Arm的GPU加速应用。

NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产

采用NVIDIA Ampere架构GPU的NVIDIA认证系统现已上市,采用NVIDIA BlueField-2 DPU的系统和采用Arm CPU的系统将分别于今年晚些时候和2022年上市。

符合条件的开发者可即刻申请使用NVIDIA Arm HPC开发者套件。

四、多类NVIDIA认证系统瞄准加速计算

凭借NVIDIA认证系统,企业能够支持传统数据中心以及混合云中的各种复杂工作。

其中包括在VMware vSphere上运行NVIDIA AI Enterprise和数据分析软件,来部署支持AI的企业级平台,从而实现批量运行AI工作负载;还包括在NVIDIA Omniverse Enterprise上实现设计协作、高级模拟以及在红帽OpenShift平台上实现AI部署。系统还可与Cloudera数据工程和机器学习无缝集成,把交付模型的时间从几个小时缩短至几分钟。

NVIDIA认证系统扩展!推全新软件平台,加速AI项目从原型到生产

NVIDIA认证系统经过严格的测试,在性能、安全性和可扩展性方面延续NVIDIA的设计最佳实践。这些系统采用NVIDIA A100、A40、A30或A10 Tensor Core GPU以及NVIDIA BlueField-2 DPU或NVIDIA ConnectX-6系列网卡,价格和性能水平各异。

在高级AI训练和云计算服务领域,戴尔科技、慧与、宁畅和超微率先推出基于NVIDIA HGX加速计算平台、经过认证的新服务器。其产品通过4或8个NVIDIA A100 GPU、NVIDIA NVLink GPU互连技术、NVIDIA InfiniBand网络以及NVIDIA AI和HPC软件栈提供领先的AI性能。

结语:NVIDIA正着力推进AI普及

从超级计算机到服务器、工作站和边缘设备,从计算、图形、虚拟桌面到数据中心基础设施,NVIDIA已经建立起一个覆盖不同产品形态的完整生态系统。

在这些形态各异的软硬件产品的基础之上,NVIDIA正通过广泛的系统组装商生态系统,推动AI在更多行业场景中的普及。