对话英伟达架构专家:三U一体成芯片级数据中心发展方向

芯东西(公众号:aichip001)
作者 |  
高歌
编辑 |  
心缘

芯东西6月17日报道,昨天下午,英伟达网络事业部亚太区市场开发高级总监宋庆春和芯东西等媒体就DPU在数据中心中的应用与发展,进行了深入探讨。宋庆春认为,DPU的出现将推动数据中心计算架构的发展,而三U一体(指CPU、GPU和DPU)可能是未来芯片级数据中心的发展方向。

宋庆春也谈到了针对DPU的DOCA软件开发平台,认为该平台可以帮助开发者更好地对DPU进行编程。此外,中国云服务厂商UCloud资深专家马彦青也分享了其基于DPU构建的产品生态与技术实践。

一、6大应用场景,未来DPU要集成GPU

宋庆春首先概述了计算架构发展趋势。他认为,随着AI业务的增加、数据量级的不断提升,传统的冯诺依曼架构成为了制约系统性能的重要原因。这也对数据中心性能的提升提出了挑战。

因此,以数据为中心的架构正在成为当今发展趋势和潮流。在以数据为中心的架构下,数据在哪里就直接进行计算,其通信延时仅为冯诺伊曼架构的1/10。

这样,网络计算和DPU就成为了新计算架构的核心。DPU是一种新型可编程数据处理器,可以极大地提升网络接口性能,高效地将数据传输到GPU和CPU中。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲计算架构发展趋势(来源:英伟达)

宋庆春提到,以OVS(开放式虚拟交换机)为例,相比于CPU,DPU实现了业务和基础设施操作的分离,大幅降低了长尾延时,加快了操作效率。

目前,英伟达已推出了BlueField-2 DPU,并在4月份发布了BlueField-3 DPU及其数据性能。未来,英伟达还计划在BlueField-4上将GPU进行集成,实现单芯片的数据中心/单元,为边缘设备提供低成本、高性能的安全数据处理能力。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲英伟达DPU路线图(来源:英伟达)

据悉,BlueField-3包含220亿个晶体管,有16个Arm A78 CPU核。这款DPU可以提供400G的以太网和NDR InfiniBand连接,等效于300个x86核,还具备18M IOP/s的弹性快存储(Elastic Block Storage)能力。

相比于BlueField-2,BlueField-3的性能实现了全面增强,可以提供5倍的加速计算能力和4倍的加密速度。宋庆春感慨称,400Gb/s的加密速度在之前的数据中心是很难想象的。

另外,他也分享了6个BlueField-3的应用场景,有云计算、网络空间安全、HPC/AI、边缘、数据存储、流媒体应用等。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲BlueField-3业务场景(来源:英伟达)

宋庆春也提到,BlueField-3在安全、网络、存储、AI/HPC(高性能计算)等领域都有很突出的表现。

云方面,BlueField-3可以将部分工作由DPU进行,实现了裸金属级的性能部署,也提供了企业级的云解决方案。

HPC/AI方面,BlueField-3实现了安全、通信、业务、操作的隔离,在不消耗CPU资源的情况下,大幅提升了存储性能,也增加了安全性。

因为DPU将通信和计算分离,所以搭配了BlueField-3的数据中心能够完成无阻塞通信,解决了此前通信等待计算、计算等待通信的行业痛点,提高了30%左右的性能。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲BlueField-3加速引擎一览表(来源:英伟达)

由于DPU往往被用作嵌入式的网卡,所以BlueField-3在提升了数据转发速度的同时,也从硬件上加强了数据安全。

在网络时钟精度上,英伟达也对BlueField-3进行了加强,借助5G网络,可以让数据中心以纳秒级进行时间同步,实现数据中心和数据中心之间一致的同步。

二、DOCA为开发者提供一站式服务

为了更好地支撑DPU应用,英伟达也提供了DOCA软件开发包。目前,英伟达已经提供了其1.0版本。

宋庆春以英伟达GPU的CUDA为例,称DOCA就如同CUDA(英伟达GPU开发平台)一样,为开发者提供了一站式服务。开发者可以通过DOCA看到DPU的各个开发界面,从而更好地进行编程操作。

整体来说,DOCA的软件栈分为两层,上半部分通过各种接口和应用场景进行衔接。下半部分则是Driver and Runtime(驱动和运行时)。

具体上,DOCA提供了BlueField-3创建、编译和优化应用的运行时环境,可用于配置、升级和监控整个数据中心数千个DPU的编排工具,以及各种库、API和日益增加的各种应用,如深度数据包检测和负载均衡等。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲DOCA软件栈示意图(来源:英伟达)

三、基于DPU云盘节省运维成本,数据更加安全

中国云服务厂商UCloud的资深技术专家马彦青也分享了其基于英伟达DOCA生态的技术实践。

马彦青提到,英伟达的DPU可以实现ASAP2网络卸载、SNAP/Virtio存储卸载、Arm处理器编排管理、DPI深度包检测与加密、IB/RDMA加速数据传输等。

对于云服务厂商来说,原本的网关架构、存储架构都因为DPU而发生了改变。

此前,云服务厂商需要网关服务器集群,成本较高,上联交换机带宽和网关带宽都存在瓶颈。而DPU将带宽提升到了50G,提升了网络效率。

对于存储来说,云厂商过去往往使用本地盘进行存储,但是本地盘存在三个问题。首先本地盘会出现坏盘,往往需要运营和维护人员进行修理。本地盘也存在众多机型,增加了运维负担。最后本地盘如果出现问题,其数据恢复十分困难。

而UCloud使用了英伟达的DPU NVMe SNAP(基于软件定义的网络加速处理)技术,将系统盘和数据盘升级成了RSSD云盘,解耦计算和存储,具有免装机、磁盘按需使用、出现故障快速迁移、3副本安全可靠等优点。

马彦青也谈到了基于InfiniBand网络的DPU加速。因为IB网络先天比以太网延迟低,可以减少数据传输次数、网络数据传输量、时延,消除网络拥塞。

他称,UCloud一直想要通过一张卡实现虚拟机和裸金属的统一,达到共用存储、数据、软件栈,甚至共享物理网络的目标。而现在DPU可以做到这样的事情,解耦用户业务与云管理服务。

对话英伟达架构专家:三U一体成芯片级数据中心发展方向▲DPU&DOCA统一裸金属与虚拟化基础架构(来源:UCloud)

结语:DPU正加速数据中心AI化发展

当今,AI任务正在数据中心的比重正在增加。而随着AI技术逐渐成熟,AI很可能会替代人类进行编程等任务。这样的话,训练和编写侧的服务器性能也就需要随之增加,数据中心的扩展性、安全性要求也会提升。

而DPU同时提升网关带宽和数据安全的优势十分适合这样的需求,其发展和落地值得期待。