从X-MAN到异构集群设计,百度智能云&英伟达新一代高性能AI计算集群线上分享会下周开讲

百度智能云于3月9日对外宣布落地新一代高性能AI计算集群,可提供EFLOPS级算力支持,并发布新一代GPU服务器实例GPU-H5-8NA100-IB01。同时将在3月16日19点在B站企业号“百度智能云的朋友们”和“百度智能云”视频号,以及“智猩猩”视频号上进行同步直播。

领先AI原生云算力底座的技术实力全新揭秘

新一代高性能AI计算集群基于NVIDIA A100-80G NVLink GPU和InfiniBand HDR构建,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。

并且在新一代GPU服务器实例GPU-H5-8NA100-IB01中,采用了百度自研X-MAN架构的超级AI计算机为硬件平台。X-MAN自2016年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请了六项专利,包括PCIe Fabric架构、液冷技术、最大支持64GPU卡扩展等,是百度AI业务快速落地的重要基础设施。目前,X-MAN已经全面升级到第四代X-MAN 4.0,为AI和HPC等计算场景进行了新的优化设计。

在配置上,每台X-MAN 4.0包含8张 A100-80G NVLink GPU,并可支持8张200Gb/s的InfiniBand网卡,实现了高速存储,高速无阻网络,高性能计算于一体的超级AI计算机。

在架构上,X-MAN 4.0全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低AI作业中GPU的闲置时间。在MLCommons 1.1榜单中,X-MAN 4.0在同配置单机硬件性能名列TOP2。

同时为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的InfiniBand网络架构,此架构优化了网络收敛比,提升了网络吞吐能力,并且结合容错、交换机和拓扑映射等手段,得以将EFLOPS级算力的计算集群性能发挥到极致。

重磅技术咖为你深度剖析产品特点、应用与场景

3月16日19点,智东西公开课联合百度智能云、英伟达,策划推出的「百度智能云&英伟达新一代高性能AI计算集群」线上分享会。 

本次分享会将由百度智能云的异构计算产品经理玄凌博、资深研发工程师孙鹏、资深系统工程师武正辉,以及英伟达解决方案架构师程帅四位技术专家参与,将围绕新一代高性能AI计算集群中的技术方案和应用进行深入剖析。

首先,百度智能云的玄凌博演讲主题为《GPU云产品体系介绍和应用场景分享》。将全面介绍百度智能云GPU云产品体系的各类产品特点,以及其典型应用场景,从而帮助用户选出合适GPU云产品,加速AI业务发展。

其次,百度智能云的孙鹏将以《超大规模AI异构计算集群的设计和优化》为主题带来分享。除了介绍EFLOPS级超AI异构计算集群的IB网络设计方法,孙鹏还将分享保证其高效运行的软硬件优化的最佳实践,并揭秘超大AI模型训练中的强大计算实力。

再次,百度智能云的武正辉将通过《超级AI计算机X-MAN技术揭秘》这一主题,深入介绍X-MAN的技术架构演讲历程,并重点分析不断推陈出新的技术特点和关键能力,是如何使其最终成为超大规模AI高性能计算集群中的硬件底座。

最后,英伟达解决方案架构师程帅将就《NVIDIA SuperPOD 赋能AI数据中心》这一主题,对NVIDIA SuperPOD 参考架构的设计特点,以及其在全球的落地案例进行分享。

本次分享会除了将在智东西公开课知识店铺上进行视频直播,也会在“百度智能云的朋友们”B站企业号和“百度智能云”视频号,以及“智猩猩”视频号上进行同步直播,想了解更多技术内容吗?想线上面对面和技术咖们battle技术吗?即刻扫描海报上的二维码点击报名,加入我们⬇️