助攻企业大幅提升生成式AI性能!NVIDIA和VMware硬核联手,打造全集成式解决方案

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西8月23日报道,NVIDIA和VMware今日宣布扩展双方的战略合作伙伴关系,VMware计划于2024年初发布VMware Private AI Foundation with NVIDIA平台,帮助数十万家使用VMware云基础架构为生成式AI时代的到来做好准备。

该平台将作为全集成式解决方案,采用NVIDIA提供的生成式AI软件和加速计算,基于VMware Cloud Foundation构建,并针对AI进行了优化,将使企业能够自定义模型并运行各种生成式AI应用,如智能聊天机器人、助手、搜索、摘要等。

此外,NVIDIA宣布全球领先的系统制造商将推出AI就绪型服务器,计划于年底前上市,云服务提供商预计将在未来几个月提供实例。

这些服务器将采用NVIDIA L40S GPU、NVIDIA BlueField-3 DPU和NVIDIA AI Enterprise软件,使企业能够微调生成式AI基础模型并部署生成式AI应用,并提供由NVIDIA加速的基础设施和软件,以支持VMware Private AI Foundation with NVIDIA,帮助企业使用自有业务数据来定制和部署生成式AI应用。

一、NVIDIA与VMware强强联手,生成式AI与多云珠联璧合

据麦肯锡预测,生成式AI每年可为全球经济带来多达4.4万亿美元的增长。

为了更快实现业务效益,企业希望简化并提高生成式AI应用的开发、测试和部署效率。VMware Private AI Foundation with NVIDIA则能够助力企业充分利用这一能力。

建立在VMware Cloud Foundation和NVIDIA AI Enterprise软件之上,该平台提供的各种集成式AI工具,将帮助企业经济高效地运行使用其私有数据训练而成的、更加安全的成熟模型,将生成式AI作为一项服务提供给用户,并更加安全地大规模运行推理工作负载。

NVIDIA AI Enterprise是NVIDIA AI平台的操作系统。VMware Private AI Foundation with NVIDIA将采用的NVIDIA NeMo是NVIDIA AI Enterprise中包含的端到端云原生框架,集自定义框架、护栏工具包、数据整理工具和预训练模型于一身,可助力企业在几乎任何地点构建、自定义和部署生成式AI模型。

为将生成式AI部署到生产中,NeMo使用TensorRT for Large Language Models(TRT-LLM)来加速并优化NVIDIA GPU上最新大型语言模型的推理性能。通过NeMo,VMware Private AI Foundation with NVIDIA使企业能够导入自己的数据,并在VMware混合云基础架构上构建和运行自定义生成式AI模型。

在VMware Explore 2023大会上,NVIDIA与VMware重点介绍了企业内部的开发人员如何使用全新NVIDIA AI Workbench提取社区模型(例如Hugging Face上提供的Llama 2),对这些模型进行远程自定义并在VMware环境中部署生产级生成式AI。

VMware CEO Raghu Raghuram认为,生成式AI与多云珠联璧合,客户的数据无处不在,遍布其数据中心、边缘、云等多处。“我们将与NVIDIA一同助力企业放心地在数据附近运行生成式AI工作负载,并解决其在企业数据隐私、安全和控制方面的问题。”Raghu Raghuram说。

NVIDIA创始人兼CEO黄仁勋谈道,世界各地的企业都在竞相将生成式AI整合到自身业务中。通过与VMware扩大合作,NVIDIA将能够为金融服务、医疗、制造等领域的数十万家客户提供其所需的全栈式软件和计算,使其能够使用基于自身数据定制的应用,充分挖掘生成式AI的潜力。

二、八大优势,让企业轻松安全部署生成式AI

具体而言,VMware Private AI Foundation with NVIDIA平台预计能够提供以下优势:

1、隐私:将通过能够保护数据隐私并确保访问安全的架构,使客户能够在任何数据所在地轻松运行AI服务。

2、选择:从NVIDIA NeMo到Llama 2等,企业在构建和运行其模型的位置上,将拥有广泛的选择空间,包括领先的OEM硬件配置及未来的公有云和服务提供商解决方案。

3、性能:近期的行业基准测试表明,某些用例在NVIDIA加速基础设施上运行的性能与裸机性能相当,甚至超过了裸机性能。

4、数据中心规模:虚拟化环境中的GPU扩展优化使AI工作负载能够在单个虚拟机和多个节点上扩展到最多16颗vGPU/GPU,从而加快生成式AI模型的微调和部署速度。

5、更低的成本:将最大程度地利用GPU、DPU 和CPU的所有计算资源以降低总体成本,并创建可在各个团队间高效共享的池化资源环境。

6、加速存储:VMware vSAN Express Storage Architecture提供性能经过优化的NVMe存储,并支持通过RDMA实现GPUDirect存储,从而无需CPU即可实现从存储到GPU的直接I/O传输。

7、加速网络:vSphere与NVIDIA NVSwitch技术之间的深度集成将进一步确保多GPU模型的执行不会出现GPU间瓶颈问题。

8、快速部署和价值实现时间:vSphere Deep Learning VM镜像和镜像库将提供稳定的统包解决方案镜像,该镜像预先安装了各种框架和性能经过优化的库,可实现快速原型开发。

三、构建庞大生态系统,助推企业生成式AI转型

对于将部署VMware Private AI Foundation with NVIDIA的企业来说,NVIDIA AI就绪型服务器是一个理想的平台,为竞相应用生成式AI的行业提供全栈加速基础设施和软件。

戴尔、慧与、联想这三家领先的系统制造商将率先提供搭载NVIDIA L40S GPU、NVIDIA BlueField-3 DPU和NVIDIA ConnectX-7智能网卡的系统,支持VMware Private AI Foundation with NVIDIA,以加速企业大型语言模型定制和推理工作负载。

NVIDIA AI就绪型服务器采用NVIDIA AI Enterprise。该软件为100多个框架、预训练模型、工具套件和软件提供生产就绪型企业级支持和安全性,包括用于大型语言模型的NVIDIA NeMo、用于模拟的NVIDIA Modulus、用于数据科学的和用于生产型AI的NVIDIA Triton推理服务器。

专为处理包含数十亿参数的复杂AI工作负载而打造的NVIDIA L40S GPU搭载第四代Tensor Core和FP8 Transformer引擎,相较于NVIDIA A100 Tensor Core GPU,可将生成式AI的推理性能和训练性能分别提高1.2倍和1.7倍。

NVIDIA BlueField-3 DPU可加速、卸载和隔离GPU或CPU上的巨大计算工作负载,其中包含虚拟化、网络、存储、安全,以及其他云原生AI服务。NVIDIA ConnectX-7智能网卡可为数据中心基础设施提供智能、加速网络,以承载全球一些要求严苛的AI工作负载,能够为数据密集型生成式AI工作负载提供同类领先的可扩展性能。

联想集团主席兼CEO杨元庆谈道,企业迫切希望采用生成式AI来推动智能化转型。通过与NVIDIA和VMware合作,联想正在进一步扩大自身在生成式AI领域的领先地位,在客户采用AI的旅程中为其提供帮助。

戴尔科技主席兼CEO Michael Dell认为,生成式AI是创新的“催化剂”,将助力解决一些全球性的重大挑战。而采用NVIDIA AI就绪型服务器的戴尔生成式AI解决方案将扮演至关重要的角色,通过推动生产力水平实现前所未有的提升,并变革工业运营的方式,以加速人类的进程。

慧与总裁兼CEO Antonio Neri说,生成式AI将推动企业生产力规模的全新扩展。慧与和NVIDIA密切合作,在一系列企业级调优和推理工作负载解决方案中采用NVIDIA的GPU和软件,将加速生成式AI的部署。

结语:双方联合研发成果,帮企业大幅提升生成式AI性能

VMware Private AI Foundation with NVIDIA建立在NVIDIA和VMware长达十年的合作基础之上。

两家公司的联合研发成果优化了VMware的云基础架构,使其能够以媲美裸机的性能运行NVIDIA AI Enterprise。VMware Cloud Foundation所提供的资源及基础架构管理与灵活性将进一步惠及双方共同的客户。  

VMware Private AI Foundation With NVIDIA以及NVIDIA AI就绪型服务器将能够帮助企业为生成式AI在业务中的应用做好准备,并在数据隐私性、安全性和可控性方面提供进一步支持。