训练利用率超80%!IBM推“全球首款”高能效AI芯片,采用超低精度“黑科技”

芯东西(ID:aichip001)
作者 |  温淑
编辑 |  Panken

芯东西218日报道,本届集成电路设计领域顶会国际固态电路会议(ISSCC 2021正在进行中(2021213日到22日)。作为已有近70年历史的集成电路产学届盛会,ISSCC 2021亦被许多厂商视为发布其领先芯片技术的权威舞台。

本届会议上,IBM发表了据称是全球首款的高能效AI芯片,该芯片采用7nm制程工艺,可达到80%以上的训练利用率和60%以上的推理利用率,而通常情况下,GPU的利用率在30%以下。

性能参数方面,IBM新品的运算密度高于同样采用7nm工艺的NVIDIA A100 GPU;其在多种精度下的整数运算性能,还优于联发科7nm专用AI芯片等产品。

IBM官网分享,其新款7nm高能效AI芯片该款芯片在多种场景中均有较好的应用前景,比如,可用于混合云环境中的低能耗AI训练、或用于实现更接近边缘的云端训练等。

一、IBM新款高能效AI芯片:能效比高过NVIDIA A100

对比结果显示,IBM新款7nm高能效AI芯片的性能和能效,不同程度地超越了IBM此前推出的14nm芯片、韩国科学院(KAIST)推出的65nm芯片、阿里巴巴旗下芯片公司平头哥推出的12nm芯片含光800NVIDIA推出的7nm芯片A100、联发科推出的7nm芯片。

IBM新款7nm高能效AI芯片支持fp8fp16fp32int4int2混合精度。

fp32fp8精度下,IBM新款高能效AI芯片的每秒浮点运算次数,分别达到16TFLOPS25.6TFLOPS;运算密度分别为0.82TFLOPS/mm^21.31TFLOPS/mm^2;能效比分别为3.5TFLOPS/W1.9TFLOPS/W

int2int4精度下,IBM新款高能效AI芯片的运算密度分别为3.27TOPS/mm^25.22TOPS/mm^2;能效比分别为16.5TOPS/W8.9TOPS/W

对比之下,IBM此前推出的14nm芯片在fp32fp8精度下的每秒浮点运算次数,分别为2TFLOPS3TFLOPS;在在fp32精度下的能效比为1.4TFLOPS/W

另外,在7nm芯片阵营中,NVIDIA A100 GPUfp16精度下的能效比为0.78TFLOPS/W,在int4精度下的能效比为3.12TOPS/W,均低于IBM新款高能效AI芯片。

训练利用率超80%!IBM推“全球首款”高能效AI芯片,采用超低精度“黑科技”

IBM新款高能效AI芯片与同类产品的性能参数对比

二、采用IBM自研超低精度训练/推理设计

IBM官网文章写道,其新款AI芯片之所以能够兼顾能效和性能,是因为该芯片支持超低精度混合8位浮点格式((HFP8hybrid FP8)。这是IBM2019年发布的一种高度优化设计,允许AI芯片在低精度下完成训练任务和不同AI模型的推理任务,同时避免任何质量损失。

据悉,目前IBM将超低精度混合8位浮点格式用于训练、超低精度混合4位浮点格式用于推理,并开发了数据通信协议,以提升多核心AI芯片上不同核心间的数据交换效率。

IBM官网文章,自2015年起,该公司每年将芯片的功耗性能提升2.5倍。这背后,IBM致力于实现算法、架构、软件堆栈等各方面的创新。

训练利用率超80%!IBM推“全球首款”高能效AI芯片,采用超低精度“黑科技”

IBM在低精度AI训练、推理方面的研究历程

除了采用超低精度混合8位浮点格式外,IBM新款高能效AI芯片添加了电源管理功能。IBM研究显示,在同等功率的情况下,通过减缓计算阶段的功率消耗,可以最大限度地提升芯片性能。

结语:AI发展对芯片能耗提出更高要求

随着智能化浪潮席卷各个领域,AI模型的复杂性日趋提高。相应地,AI应用的能源消耗水平亦水涨船高。这一背景下,如何最大限度提升能效,成为AI芯片设计玩家们面临的重要命题。

IBM通过采用超低精度混合8位浮点格式和内置电源管理功能,为其新款AI芯片实现了业界领先的高能效。但是,这一芯片尚未实现规模化量产,仍有待市场检验。

来源:IBM