480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成

智东西（公众号：zhidxcom）
作者 | 心缘
编辑 | 漠影

智东西6月25日报道，今日，阿里巴巴达摩院发布“低碳版”巨模型M6，在全球范围内首次大幅降低了万亿参数超大模型训练能耗。

据悉，达摩院团队仅用480卡英伟达V100 GPU，就训练出了规模达人类神经元10倍的万亿参数多模态大模型M6。

与英伟达、谷歌等海外公司实现万亿参数规模相比，阿里“低碳版”M6能耗降低超8成、效率提升近11倍。

一、M6进展三连跳，万亿、商用、低功耗

达摩院此次发布的M6巨模型，今年以来实现进展“三连跳”。

1月达成百亿参数，2月达成千亿参数，5月在全球范围内首次大幅降低了万亿参数超大模型的训练能耗。

此次达摩院训练出万亿参数模型M6，仅仅使用了480卡V100 32G GPU，节省算力资源超80%，且训练效率提升近11倍。

对比之下，此前英伟达实现万亿参数，使用了3072 A100 GPU；谷歌实现1.6万亿参数大模型，使用了2048 TPU。

M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。

比如在应用效果方面，OpenAI DALL·E生成图片清晰度达256×256，M6将图片生成清晰度提升到1024 x 1024。

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成

不仅如此，M6还是国内首个实现商业化落地的多模态大模型。

例如，经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造。

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成 ▲M6参与新款服装设计的流程图

通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成 ▲M6生成的高清服装设计图

M6还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

以文案撰写为例，给M6一张商品图，它能直接生成相应的文案，而且随着模型参数规模越大，生成文字的措辞也更加精准。

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成 ▲不同规模的M6模型生成风衣图片的描述文案

再比如，当消费者在淘宝中搜索中输入一个特殊的需求，而这个需求通常不会被商家写在商品名和描述时，M6能直接将搜索文本与商品图片联系起来，迅速找到可能满足消费者需求的商品。

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成 ▲M6搜索“日式风格凹凸咖啡杯”

二、采用MoE模型，解决大模型训练挑战

大模型研究的一大技术挑战是，模型扩展到千亿及以上参数规模时，将很难放在一台机器上。

如果使用模型+流水并行的分布式策略，一方面在代码实现上比较复杂，另一方面由于前向和反向传播FLOPs过高，模型的训练效率将非常低，在有限的时间内难以训练足够的样本。

从开始研发大模型起，阿里M6团队便格外重视GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样以来，更多人可用较少的成本训练或者应用大模型。

针对大模型普遍存在的高算力成本问题，达摩院联合阿里云机器学习PAI平台、EFLOPS计算集群等团队，改进了MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。

同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

在实现基本MoE策略的基础上，团队更加细致地探索了MoE在预训练模型中的各类超参对模型收敛速度和精度的影响，包括top-k的k值、capacity对load balance的影响、load balance本身对效果的影响。基于这一系列的观察，他们提出了一种Expert Prototyping的方法，使用分组MoE的形式，让不同组的MoE通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组MoE都能取得比baseline更好的效果。相比于单组switch routing的串行实现方式，分组MoE可以达到更好的加速效果。团队发现，他在更大规模的模型上优势会变得更大，如下图：

480块GPU跑出万亿参数！阿里推“低碳版”AI大模型，能耗降8成

在机器方面，M6团队最终采用的是在Hippo混布集群搭建模型的方案，利用480个单机单卡的NVIDIA V100-32GB，通信为带宽为100Gb RoCEv2的RDMA网络网络，在XDL上提交任务，成功完成万亿模型的训练。

未来，M6团队将进一步探索纵向扩展参数规模，寻求模型深度与宽度的最优平衡。

M6相关技术文章：

A Chinese Multimodal Pretrainer, KDD 2021 （千亿参数）
https://arxiv.org/pdf/2103.00823.pdf

Exploring Sparse Expert Models and Beyond (万亿参数）
https://arxiv.org/abs/2105.15082

结语：将继续把低碳AI做到极致

阿里今年在超大规模预训练模型领域已经发布多项成果。

除了发布多模态巨模型M6外，阿里巴巴达摩院近期还发布了中文社区领先的语言大模型PLUG，实现了在AI大模型底层技术及应用上的深入布局，并于本周宣布开源其预训练语言模型体系AliceMind。

当然，大模型研究尚有很多问题有待探索。

达摩院资深算法专家杨红霞透露：“接下来，M6团队将继续把低碳AI做到极致，推进应用进一步落地，并探索对通用大模型的理论研究。”

M6团队主要关注方向如下：

1、继续将GreenAI做到极致，让更多学者和企业能参与对下一代AI的研究、应用；

2、继续推进大模型应用落地，让下一代AI进入包括社会公益在内的更多领域；

3、优化通用模型下游任务训练，让大模型在更多任务上拥有更好表现；

4、探索对通用大模型的理论研究，期望揭开“How it works”；

5、探索大模型训练的软硬件结合，启发下一代人工智能硬件设计。

一、M6进展三连跳，万亿、商用、低功耗

二、采用MoE模型，解决大模型训练挑战

结语：将继续把低碳AI做到极致

相关推荐