让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

AI应用落地加速,对推理的性能提出了更加苛刻的要求。

就在上周,阿里云重磅升级了第八代企业级通用计算实例ECS g8i,国内首款搭载英特尔第五代至强可扩展处理器Emerald Rapids的实例。相比上一代,g8i整机性能最高提升85%,AI推理性能最高提升7倍,可支撑720亿参数规模的大语言模型,帮助中小规模模型起建成本降低50%

阿里云ECS g8i的发布证明,为AI大模型提供算力的不只有GPU和AI芯片,基于CPU的通用算力正在打破过去业界的固有认知

钉钉联合国际知名咨询机构IDC预测,随着AIGC技术发展,智能化应用将呈现爆发式井喷,2024年全球将出现5亿个新应用,不同应用对算力的需求将是多样化的,这一背景下,业内开始探索CPU算力在AI推理的潜力。

在阿里云第八代企业级通用计算实例ECS g8i发布之际,智东西与阿里云弹性计算产品线副总经理王志坤、阿里云弹性计算高级产品专家姬少晨进行了深入交流,深度探讨CPU算力在AI推理方面的独特优势,以及面临大量AI创新应用的涌现云计算提供商的新思考。

一、整机性能提升85%,国内率先商业化

算力无疑是此次生成式AI浪潮的焦点,随着大量AI创新应用走向落地,企业对于大模型推理的算力需求正在发生变化。

瞄准企业对AI推理算力的多元化需求,已经正式对外商业化的阿里云第八代企业级实例ECS g8i,在计算、存储、网络和安全等能力方面实现全方位提升。

在底层通用能力提升方面,阿里云ECS g8i实例基于阿里云自研的「CIPU+飞天」计算体系架构,搭载了第五代英特尔至强可扩展处理器,使得单核性能提升25%,核密度提升50%。L3缓存从提升6倍达到320MB,内存速率提升75%达到5600MT/s,并于国内率先商业化上线。

CIPU作为高效核心引擎,将云上的计算、存储、网络等能力调度以提升计算效率。阿里云ECS g8i实例在ESSD云盘方面提供了100万IOPS,搭载NVMe使得存储延迟低至百微秒。

更强的单核性能、更高的核密度、更大的缓存、更快的内存的综合能力下,阿里云ECS g8i整机性能提升达到85%。

让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的QAT、AMX等加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。

同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。

二、阿里云与英特尔强强联合,“压榨”CPU为AI提速

大模型在训练环节需要处理海量数据,因此对算力性能要求较高,GPU也被公认为更适用于大模型训练。但在AI推理阶段,随着CPU性能的提升,在部分场景下基于CPU的通用计算性价比更高。

姬少晨坦言,大模型推理工作负载主要面临首包时延、吞吐性能上的挑战,如果只是看并行算力、浮点算力、内存带宽、执行效率和网络延时等指标,很容易就草率地认为CPU不适合做AI计算。

但阿里云ECS g8i的出现可以说是生成式AI发展突飞猛进之际,云计算提供商给企业提供的新选择。

阿里云ECS g8i在AI能力的提升,背后是阿里云与英特尔的深度合作。最为关键的是CPU的定制化改造。姬少晨说,“我们在英特尔设计芯片的早期就深度沟通交流,最后的结论是直接在第五代英特尔至强CPU的每个核心里增加加速器AMX。”

第五代英特尔至强可扩展处理器提供的AMX高级矩阵扩展,增强了CPU的并行计算能力, 可以给企业客户提供平台化、统一、弹性能力,带来了革命性的AI性能提升。

阿里云ECS g8i实例通过AMX加速,逐步提升了CPU做并行算力的能力,将其中的差距逐步缩小。同时,基于阿里云自研的CIPU架构优势,通过云上弹性扩展的天然优势,屏蔽单实例内存带宽劣势,依托阿里云自研的eRDMA超低延时弹性网络,解决网络通讯的痛点。

基于以上在并行计算、内存带宽、网络延时等方面的优化,阿里云ECS g8i不仅可以更迅速地响应中小规模参数模型,还可胜任720亿参数级别的大语言模型。

在中小模型方面,阿里云ECS g8i实例运行知识检索、问答系统及摘要生成等AI工作负载时,起建成本相比传统GPU方案下降50%。此外,配合阿里云平台的Spot抢占式实例,成本优势将进一步凸显,进一步降低AI推理成本。

对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到AI集群,这个时候网络通讯成了主要的性能瓶颈。基于eRMDA网络构建的ECS g8i实例集群拥有超低延时网络和高弹性优势,可支撑720亿参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize的超大参数规模的AI模型负载,运行文生图、AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。

实际测试中,通义千问70B参数超大模型中,大在输入小于500字情况下,首包延时小于3秒,每秒可生成7个Token。

同时在安全方面,基于机密计算,阿里云ECS g8i实例保证企业云上数据可用不可见,为企业后续数据上云、业务上云打好了基础。

让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

CPU算力还有更为关键的一大优势是资源供应。GPU的缺货潮仍然没有停息,因此短期内其价格不会大幅下降也不会有大量供应,而云上CPU的资源供应能力更优。“未来在AI推理场景的算力需求满足上,CPU与GPU算力会互为补充。根据客户在性能表现、售卖模式、供应能力等综合考量下的实际应用诉求,CPU和GPU将互相配合、共同支撑AI推理的算力需求。“姬少晨补充道。

结语:CPU上跑AI,缓解推理算力焦虑

大量AI创新应用涌现已经成为业界共识,在AI时代既需要云上算力更具灵活性,还要有更强的加速能力。与此同时,基于云端的算力交付成为企业使用算力一个越来越重要的场景和途径。

因此,阿里云和英特尔联手探索CPU在AI推理场景的潜力。王志坤谈道,阿里云和英特尔集中投入大量资源进行研发的关键就是,双方对于客户需求场景的共同的判断和使能,使客户获得算力的方式比传统方式更迅捷、更高性价比、更弹性。

随着AI应用趋于盛行,阿里云与英特尔强强联手打造的这一新方案,将为加速AI创新应用落地提供新的路径。