NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产

芯东西（ID：aichip001）
作者 | 心缘
编辑 | 漠影

芯东西6月1日报道，今日下午，NVIDIA在台北国际电脑展Computex 2021上推出托管在云端的开发中心NVIDIA Base Command Platform，帮助企业快速将AI项目从原型快速投入生产。

此外，NVIDIA宣布NVIDIA认证系统计划进一步扩展，现已包含50多种面向企业数据中心的NVIDIA认证系统，获得认证的数十款全新服务器可运行NVIDIA AI企业级软件。

研华科技、Altos、永擎电子、华硕、戴尔科技、技嘉科技、慧与、联想、云达科技、超微等公司的NVIDIA认证系统数量日益提升，包括一些在主流数据中心使用的主流x86服务器，为医疗、制造、零售和金融服务等行业的AI应用提供支撑。

首批NVIDIA认证系统将采用NVIDIA BlueField-2 DPU，用于提升安全性。多家全球知名服务器制造商均于今日发布了采用NVIDIA BlueField-2 DPU的新系统。

NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产 ▲数据处理器NVIDIA BlueField-2 DPU

一、NVIDIA和NetApp提供订阅服务，将推出面向公有云基础设施的各类集成

“世界级的AI开发工作需要强大的计算基础设施，并且至关重要是，让每一家公司和他们的客户都能使用和获得这些资源，从而让AI技术为其所用。”NVIDIA企业计算负责人Manuvir Das说。

NVIDIA DGX是专为AI计算而优化的系统。自2016年推出DGX以来，许多处于AI前沿的行业公司均在使用DGX。如今，DGX融合了来自全球成千上万个系统的数亿小时的使用经验，其AI性能的巅峰是由多个DGX节点组成的集群DGX SuperPOD。

实现DGX普及的第一步，是让这种同类性能最好的机器更易获取。为了使其便于使用，NVIDIA打造了一种名为Base Command Platform的软件堆栈。

这是一款基于NVIDIA加速计算的云托管解决方案，专为托管在本地或云端的大规模、多用户、多团队AI开发工作流程设计，可以降低AI工作流程管理的复杂性，使得数据科学家和研究人员能够将更多的时间用于开发他们的AI项目，减少管理他们机器的时间，提高生产力。

Manuvir Das说，多年来，NVIDIA内部一直在使用Base Command Platform，在数千名数据科学家之间共享SuperPOD，这些数据科学家已经运行了一百多万项作业。

Base Command Platform现可通过NVIDIA和NetApp联合提供的高级月度订阅来获取，通过附带NetApp解决方案的Base Command Platform，将能利用具有破纪录性能的NVIDIA DGX SuperPOD AI超级计算机和NetApp数据管理服务，帮助客户更轻松地部署AI并将其应用到工作中。

该订阅模式现处于抢先体验阶段。客户可以一次体验数月的SuperPOD功能，或SuperPOD某个较小部分的功能。NVIDIA希望借此模式使更多客户体验SuperPOD的独特功能。

NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产

亚马逊和谷歌云都计划在其云端GPU实例集群中添加对Base Command Platform的支持，谷歌云将在今年晚些时候为客户提供真正的混合AI体验。

谷歌云机器学习基础设施产品管理总监Manish Sainani提到：“这款混合型AI产品，可以使得企业只需编写一次就能在任何地方运行，灵活接入多个NVIDIA A100 Tensor Core GPU，通过采用按需的加速计算，企业可以加快AI开发速度。”

Base Command Platform为整个AI开发提供了统一的视图和简单的界面。该视图通过图形用户界面和命令行API，以及综合监控和报告仪表盘，来促进资源的轻松共享。

包括NVIDIA NGC的AI和分析软件目录、与MLOps软件集成的API、Jupyter笔记本等在内的一系列丰富的AI和数据科学工具，能帮助研究人员可以更快的计划和安排工作负载、完善模型和获得洞察。

二、首批NVIDIA认证系统用BlueField-2 DPU提升安全性

在普及DGX使用时，NVIDIA更大的目标是将DGX分解成经AI优化的较小计算实例，方便系统提供商可以针对不同的业务场景，将计算实例组合，以适应不同计算需求，同时为客户增加独特的增值功能。

首先，NVIDIA将多个GPU相结合的GPU板产品，化为一个紧密互连的计算结构，即A100。

接着，NVIDIA进一步将A100分解为较小外形的GPU，如A30，它的功耗、成本更低，同时仍有强大的加速性能。

最后，NVIDIA已将DGX SuperPOD中的BlueField-2 DPU产品化，现可在各种服务器中使用。

NVIDIA BlueField DPU将基础设施任务从CPU转移至DPU，使更多的服务器CPU核可用于运行应用程序，从而提高服务器和数据中心的效率。

该DPU为每个服务器配备了一台“计算机前的计算机”，以提供独立、安全的基础设施服务，并与服务器应用域安全隔离，在虚拟化和裸金属服务器上实现了无代理应用隔离、安全隔离、存储虚拟化、远程管理和遥测。

今天，NVIDIA宣布将扩展NVIDIA认证计划，增加NVIDIA BlueField DPU系统。今年下半年，几家全球领先的系统制造商将首次发布多款经过新一类NVIDIA认证系统的服务器。这类新认证系统将通过BlueField-2 DPU（数据处理器），在网络、存储和安全性能上实现突破。

通过卸载CPU的工作任务，单一BlueField-2 DPU可以提供多达125个CPU核才能实现的数据中心服务，从而释放服务器CPU周期，以支持各种关键业务应用。未来，DPU将成为数据中心和边缘计算系统中各个服务器的重要组件。

华硕、戴尔科技、技嘉、云达科技和超微均已宣布将提供采用NVIDIA BlueField-2 DPU加速的服务器。

NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产

BlueField-2 DPU也得到了红帽、VMware等软件基础设施供应商的广泛支持。例如，为协助开发者构建支持BlueField-2 DPU的应用程序，红帽免费为开发者提供针对红帽企业版Linux操作系统的红帽开发者订阅版。

今年，NVIDIA发布了第一版DOCA，即BlueField的SDK。客户和软件制造商可使用NVIDIA DOCA SDK轻松地对BlueField DPU进行编程。

NVIDIA期望DOCA之于DPU，就像CUDA之于GPU一样，为数百万开发者通过持久一致的SDK，使之能平滑使用一代又一代的BlueField。

该片上数据中心体系架构可简化应用开发，并且实现前后兼容，包括兼容预计将在2022年推出的NVIDIA BlueField-3 DPU，以及未来所有的BlueField DPU。

三、NVIDIA认证将于明年扩展至Arm CPU服务器

NVIDIA还宣布，NVIDIA认证计划会扩展至采用基于Arm CPU的加速系统。

随着CPU和DPU加速器承担更多AI计算工作负载，主机CPU不仅被视作计算引擎，将其视为编排器的做法变得更加实用。

为了将Arm生态系统扩展至企业、实现高性能AI计算，技嘉科技和纬颖科技计划将提供新的服务器，其采用基于Arm Neoverse的CPU、NVIDIA Ampere架构GPU和/或BlueField-2 DPU。

这款服务器预计将于明年上市，届时将被提交至NVIDIA进行认证。

NVIDIA还同技嘉科技合作提供一款Arm HPC开发者套件，为HPC、AI和科学计算应用开发提供硬件和软件一体化的平台。

该平台经NVIDIA验证，可满足严苛的HPC应用要求，它包含一个来自Ampere Computing的基于Arm Neoverse的Ampere Altra处理器、两个A100 GPU、两个BlueField-2 DPU以及NVIDIA HPC SDK，准备适用于Arm的GPU加速应用。

NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产

采用NVIDIA Ampere架构GPU的NVIDIA认证系统现已上市，采用NVIDIA BlueField-2 DPU的系统和采用Arm CPU的系统将分别于今年晚些时候和2022年上市。

符合条件的开发者可即刻申请使用NVIDIA Arm HPC开发者套件。

四、多类NVIDIA认证系统瞄准加速计算

凭借NVIDIA认证系统，企业能够支持传统数据中心以及混合云中的各种复杂工作。

其中包括在VMware vSphere上运行NVIDIA AI Enterprise和数据分析软件，来部署支持AI的企业级平台，从而实现批量运行AI工作负载；还包括在NVIDIA Omniverse Enterprise上实现设计协作、高级模拟以及在红帽OpenShift平台上实现AI部署。系统还可与Cloudera数据工程和机器学习无缝集成，把交付模型的时间从几个小时缩短至几分钟。

NVIDIA认证系统扩展！推全新软件平台，加速AI项目从原型到生产

NVIDIA认证系统经过严格的测试，在性能、安全性和可扩展性方面延续NVIDIA的设计最佳实践。这些系统采用NVIDIA A100、A40、A30或A10 Tensor Core GPU以及NVIDIA BlueField-2 DPU或NVIDIA ConnectX-6系列网卡，价格和性能水平各异。

在高级AI训练和云计算服务领域，戴尔科技、慧与、宁畅和超微率先推出基于NVIDIA HGX加速计算平台、经过认证的新服务器。其产品通过4或8个NVIDIA A100 GPU、NVIDIA NVLink GPU互连技术、NVIDIA InfiniBand网络以及NVIDIA AI和HPC软件栈提供领先的AI性能。

结语：NVIDIA正着力推进AI普及

从超级计算机到服务器、工作站和边缘设备，从计算、图形、虚拟桌面到数据中心基础设施，NVIDIA已经建立起一个覆盖不同产品形态的完整生态系统。

在这些形态各异的软硬件产品的基础之上，NVIDIA正通过广泛的系统组装商生态系统，推动AI在更多行业场景中的普及。

一、NVIDIA和NetApp提供订阅服务，将推出面向公有云基础设施的各类集成

二、首批NVIDIA认证系统用BlueField-2 DPU提升安全性

三、NVIDIA认证将于明年扩展至Arm CPU服务器

四、多类NVIDIA认证系统瞄准加速计算

结语：NVIDIA正着力推进AI普及

相关推荐