机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

芯东西（公众号：aichip001）
编 | 韦世玮

芯东西2月11日消息，今天，Arm推出其人工智能（AI）平台重要新品，包括全新机器学习IP Cortex-M55处理器，以及Ethos-U55神经网络处理器。

其中，Ethos-U55是Arm针对Cortex-M系列处理器推出的首款微神经网络处理器（microNPU），与Cortex-M系列处理器相配合，能进一步提升机器学习性能与能效。

Arm称，Cortex-M55与Ethos-U55的结合使用，能够为微控制器带来480倍的机器学习性能飞跃。

随着机器学习应用在各个行业中愈发普及，在Arm看来，终端AI市场也将在未来几年内呈现爆炸性增长，终端智能设备市场将进一步发展。

因此，Arm通过推出全新IP内核与NPU，在扩展自身AI产品组合的同时，也帮助客户降低芯片开发成本，满足他们提升终端数字信号处理（DSP）和机器学习能力的需求。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

一、Cortex-M55：拥有自定义指令集和矢量扩展

Arm声称，此次推出的Cortex-M55是其有史以来AI功能最强大的Cortex-M处理器，同时也是首款基于Armv8.1-M架构、内建Arm Helium向量处理技术的处理器。

与前几代Cortex-M系列处理器相比，Cortex-M55的机器学习性能最高可提升15倍，DSP性能可提升5倍，能耗比进一步提高。

除此之外，Cortex-M55还支持自定义指令集（Custom Instructions）。在去年的Arm Techcon技术大会上，Arm首次宣布自定义指令集，并与Cortex-M33一起推出。

实际上，这一功能与RISC-V IP内核提供的功能相类似，目的是在密集执行的内核中，将紧凑的指令序列折叠为一条指令，节省功耗和吞吐量。

从传统方式上看，用户要实现这一功能，可以通过内存映射设备来实现，而Arm现在已经可以通过使用协处理器接口，将操作更紧密地与CPU集成在一起。

这就意味着，用户能通过Cortex-M55的自定义指令集延伸处理器能力，对特定工作负载进行优化。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

除了自定义指令集外，Cortex-M55还有另一大创新点，它在内核中首次构建了Helium向量处理技术。

Helium，也称为M-Profile Vector Extension（MVE），它能在Arm TrustZone的安全基础上提高Armv8.1-M架构的计算性能。它还引入新的单指令多数据流（SIMD）128位矢量操作，进一步增强DSP和机器学习应用的性能。

在性能方面，Helium能将Cortex-M55的数字信号处理器性能提升5倍，机器学习性能提升15倍。

此外，它还依赖现有的寄存器（非NEON矢量寄存器），并引入对通道（lane）预测、循环（loop）预测、分散/聚集（scatter-gather）等复杂操作的支持。

二、Ethos-U55：简化设计NPU

如果想拥有更高的机器学习系统，用户可以将Cortex-M55与Ethos-U55搭配使用。

Ethos-U55是Arm的首款微神经处理器，与现有的Cortex-M系列处理器相比，Cortex-M55与Ethos-U55的结合能让产品的机器学习性能提升480倍。

性能方面，Ethos-U55拥有高度的可配置性，能加速空间受限的嵌入式与物联网设备的机器学习推理能力。它的压缩技术可以节省电力并缩小机器学习模型的尺寸，同时还能运行以往只能在较大型系统上执行的神经网络运算。

实际上，Ethos-U55与其他Ethos-N系列存在一定区别。

首先，Ethos-N是独立的IP模块，可以放到SoC CCN-500网络上，而Ethos-U旨在与配套的Cortex-M处理器紧密协作，并利用其处理能力。

同时，Ethos-U55还可以与较旧的Cortex-M系列处理器一起使用，如Cortex-M7、M4和M33等。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

从Ethos-N系列的多层神经网络（MLP）设计上看，它们是使用多个计算引擎实例构建的，每个实例都包含几个主要组件，如SRAM、MAC计算引擎（MCE）和可编程层引擎（PLE）。

但对Ethos-U55来说，由于功率和面积限制，它的设计相对简单，因此Arm将其称为microNPU。

从概念上讲，Ethos-U55只是一个具有计算引擎的MLP，而从设计上看，Ethos-U55在设计过程中删除了PLE。

主要原因在于，Ethos-N系列的PLE将Cortex-M CPU和16通道的矢量引擎集成在一起，导致面积和功耗都相当昂贵，但这对高性能SoC来说还处于可接受的范围。

而Ethos-U55通过与Cortex-M55等CPU相结合，能够让用户摆脱PLE，改为在配套的Cortex-M处理器上进行处理。

虽然这并非一个完整的代替品，但基于严格的功率和面积限制考虑，这不失为一个在可接受范围内的折中方案。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

此外，Ethos-U55还删除了较为昂贵的专用SRAM库，因为它只需要很小的SRAM就可以进行足够的内部处理。

Ethos-U55假定外部系统具有某种缓存，可与Cortex-M处理器共享，仍然能完成MLP设计的其他工作。例如，让直接内存存取（DMA）根据需要获取NN层，此外NPU还可以处理内存中的压缩权重和激活工作，在处理之前即时进行解码。

三、M55与U55结合的最高推理性能可提升50倍

Arm声称，与Cortex-M7相比，基于Helium扩展的Cortex-M55，其对典型语音助手类的工作负载推理性能最高可提升6倍，能效可提升7倍。与Ethos-U55结合使用时，这两项性能可分别提高50倍和25倍。

值得一提的是，这些性能要实现提升，必须重新编译代码，以充分利用新的M-Profile向量扩展，以及Ethos MAC引擎的处理能力。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

据了解，Cortex-M系列可用于各种芯片和多种工艺技术。

基于此，Arm表示，在55nm或40nm等成熟的节点上，他们希望能看到Ethos-U55的时钟频率可达到100 MHz至400MHz，甚至更高。

为了更好地调整NPU到应用程序，用户可以将MAC计算引擎（Compute Engine）配置为32、64、128或256个MAC。

在32个MAC的最小配置下，用户可以获得6.4-25.6 GOPS的峰值计算性能，而在256 MAC的最大配置下可达到51.2-205 GOPS。

在7nm或5nm这类先进制程节点上，Ethos-U55的时钟频率可达到1 GHz或更高。在这一阶段，128个MAC和256个MAC配置的峰值计算性能，分别为0.25 TOPS和0.5 TOPS。

机器学习性能提升480倍！Arm推最新Cortex-M处理器，搭首款microNPU

四、主要合作伙伴已获授权应用

目前，Arm已经向主要合作伙伴开放了Cortex-M55和Ethos-U55的授权，并将在未来几个月内进一步开放，基于此IP的芯片预计在 2021年年初上市并实际投入使用。

在应用方面，Cortex-M55能够广泛地应用于移动设备终端。例如，在智能手机的语音助理、指纹传感器和RF系统中，它能进一步实现这些工作负载的优化。

据了解，已经获得Cortex-M55和Ethos-U55授权的公司有谷歌、恩智浦、意法半导体、赛普拉斯和恒玄科技等。

其中， Google微控制器用TensorFlow Lite部门产品经理Ian Nappier谈到，Arm的这一全新IP进一步推进了在终端设备上实现机器学习，并达成数十亿个具备TensorFlow功能设备的共同愿景。

而这些设备仅依靠电池就能运行神经网络模型，并长达数年之久，还可直接在终端设备上实现低迟延的推论。

另外，意法半导体微控制器部门总经理Ricardo De Sa Earp也说到，全新的Arm Cortex-M55能够为意法半导体的下一代微控制器，带来所需的机器学习性能与效率提升，从而进一步提升各项AI应用。

结语：为AI终端市场打开创新突破口

作为半导体领域重要的IP架构供应商，长期以来，Arm架构一直占领着移动设备领域指令集架构的重要地位。

对Arm自身而言，随着AI和机器学习等技术的不断成熟和发展，它也持续研发出新的IP架构、完善各类AI产品组合，以满足市场越来越多的AI需求，而此次Cortex-M55和Ethos-U55的推出，也进一步为现在的AI终端市场撕开了又一创新方向。

移动设备领域IP架构的市场竞争仍十分激烈，架构开源、高性价比等需求也愈发鲜明。未来，Arm将如何依靠自身的丰富经验和优势，在众多对手的市场竞争中脱颖而出？我们拭目以待。

文章来源：WikiChip

一、Cortex-M55：拥有自定义指令集和矢量扩展

二、Ethos-U55：简化设计NPU

三、M55与U55结合的最高推理性能可提升50倍

四、主要合作伙伴已获授权应用

结语：为AI终端市场打开创新突破口

相关推荐