抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西5月11日报道,昨日,国产智能驾驶大算力芯片再添一员猛将。南京AI芯片创企后摩智能发布国内首款量产存算一体智驾芯片鸿途H30,最高物理算力256TOPS,典型功耗只有35W

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

“这么大的物理算力,在国产智驾芯片里目前是没有的。”后摩智能创始人兼CEO吴强说,作为国内首款存算一体AI大算力芯片,H30的发布标志着存算一体大算力芯片商业落地元年的开启。

后摩智能成立于2020年底。H30是凝聚了它过去两年心血的第一个产品,“鸿途”寄寓了“鸿鹄之志,脚踏实地,走向漫漫征途”之意。

在持续紧张的地缘关系下,算力国产化的需求不断提速,H30则提供了一个差异化的优质智驾芯片选择,其不依赖先进工艺的优势也标志着国产智驾芯片向自主可控方向又前进了一步。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

吴强还剧透了后摩智能的下一阶段“小目标”:用2年左右时间,实现智驾芯片大规模商用,成长为智驾芯片领域的国内头部企业。

之后,后摩智能考虑将计算芯片延展到更多类似的应用场景,比如人形机器人、服务机器人,以及GPT/云端推理等其它对算力和能效有更高要求的场景。在更长的时间维度,后摩智能希望做出万物智能时代的极效计算平台,并成长为智驾芯片和智能芯片国际头部企业。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

一、锚定存算一体架构,实现六大创新突破

后摩智能联合创始人、芯片研发副总裁陈亮说,H30芯片基于自研数字存算一体创新架构,实现了六大创新突破:大算力、全精度、低功耗、车规级、可量产、通用性

H30采用12nm工艺制程,基于SRAM存储介质,拥有极低的访存功耗和超高的计算密度,在Int8数据精度下可实现高达256TOPS的物理算力,同时所需功耗不超过35W,整个SoC能效比达到了7.3Tops/W

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

在实际测试中,H30基于Resnet50模型的Benchmark,在Batch Size等于1和8的条件下,性能分别达到8700帧/秒10300帧/秒

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

目前,基于H30已成功运行常用的经典CV网络和多种自动驾驶先进网络,包括当前业内最受关注的BEV网络模型以及广泛应用于高阶辅助驾驶领域的Pointpillar网络模型。基于H30打造的智能驾驶解决方案已在合作伙伴的无人小车上完成部署,这是业界第一次基于存算一体架构的芯片成功运行端到端的智能驾驶技术栈。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

得益于灵活、高效的硬件架构设计,H30实现了2倍的性能提升,同时功耗降低了50%

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

H30的“核心AI大脑”,是后摩智能面向智能驾驶场景自主研发的第一代IPU天枢架构。在Int8数据精度条件下,其AI核心IPU能效比高达15Tops/W,是传统架构芯片的7倍以上。

这么高的能效比,离不开存算一体技术路线的选择。存算一体通过直接利用存储单元做计算,能够打破传统冯·诺依曼计算架构面临的存储墙、带宽墙、功耗墙瓶颈,理论上可实现超过现有专用ASIC芯片的更大算力、更高能效(超过10-100TOPS/W)、更低成本,被业界视作下一代AI计算芯片的主流架构之一

随着ChatGPT开启大模型军备赛,AI训练所需的算力呈指数级增长,大模型的训练和部署均对高算力、低延时、低功耗、低成本提出了更严苛的要求。不依赖先进工艺就能大幅提高算力的存算一体芯片概念随之日趋火热,而后摩智能采用的成熟存储器SRAM有望成为云端存算一体主流介质。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

第一代IPU天枢架构采用多核、多硬件线程的方式灵活扩展算力,AI计算可以在核内完成端到端处理,保证通用性。基于存算一体技术思路,后摩智能用12nm工艺做到了比肩市面上7nm、5nm类似产品的性能。这对当下芯片创新的思路也提供了一种启发。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

陈亮透露说,第二代天璇架构已在研发中,第三代天玑架构已开始规划。天璇架构将采用Mesh互联结构,可根据应用场景的不同配置计算单元的数量,进一步提高整体性能、效率和灵活性,能够支持成本和功耗敏感的智能终端、大模型等多场景应用。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

二、从底层创新做起,不做人云亦云的国产替代

“未来万物智能时代的计算系统,和今天的新品相比,在计算能力和效率上至少要再有1000倍以上的提升。这就是我们所追求的极致效率。”

在发布会上,后摩智能创始人兼CEO吴强谈起选择创业方向的探寻与思考,随着摩尔定律日渐濒临极限,如何在不依赖先进工艺的情况下,通过底层架构创新来实现AI计算效率的极致突破?

跳出传统冯·诺依曼架构思路的存算一体架构,成为了他眼中的最优解。

从技术原理来看,小到计算芯片,大到超级计算机系统,计算速度和能效都受到数据搬运问题的掣肘。目前存储带宽速度严重滞后于处理器的计算速度,传统冯·诺依曼架构中,存储与计算单元分离,数据频繁移动和存取的耗时甚至达到运算时间的成百上千倍,并造成大量额外能耗。

而存算一体架构通过将存储与计算功能融合,结合后摩尔时代的新型存储器件、先进封装、Chiplet等技术,能够从根本上解决这些问题;由于存算一体本质上是做乘加运算的加速,它天然与要做大量矩阵运算的AI计算需求非常契合。

如今大算力已是大模型、智能驾驶等前沿AI技术竞赛的“入场券”,地缘政治的影响下,不依赖先进工艺就能取得比肩传统计算芯片算力的存算一体架构,为国产大算力芯片开辟了换道超车的新路径。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS▲后摩智能创始人兼CEO吴强现场展示H30

从应用领域来看,随着存储技术进一步成熟,存算一体可适用于从云到端的各类计算。存算一体AI芯片起初先在端侧实现商用,配套技术逐渐成熟后,已经可以完成高精度计算,将应用范畴拓展到边缘计算和云端数据中心。

不同于大多数国内创企的选择,后摩智能将落地第一站设在了智能驾驶场景。

吴强解释说,这样做主要有三个方面的考量:首先是市场需求大;其次从技术和市场匹配的角度,存算一体带来的技术产品优势,和未来智能驾驶芯片的这些关键需求天然吻合;此外,智能驾驶的终局是要替代人类驾驶,用传感器替代眼睛,用算法填补意识和灵魂,相当于人脑的底层智驾芯片也要无限接近于人脑计算方式和效率。

这不失为一种另辟蹊径的选择。当前智能驾驶大算力芯片领域竞争激烈,英伟达、高通等国际巨头横亘在前,如果选择与巨头相同的赛道,一旦先进工艺技术被“卡脖子”,后续算力提升将变得举步维艰。而后摩智能避开巨头的舒适区,从存算一体架构去专攻高能效,这种策略固然冒险,却能在新赛道上占据先发优势,并可能为其在一些更加追求性价比的中端车上争取到市场空间。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

在发布会上,中国电动汽车百人会副理事长兼秘书长张永伟谈道,智能驾驶市场仍处于加速渗透的阶段。存算一体作为一种创新技术,对工艺制程依赖度低,具有极高的竞争力,为智能驾驶芯片提供了更具前瞻性的技术路径选择。采用多种技术路径实现芯片国产化布局,将有利于解决汽车芯片供应链中存在的同质化竞争问题,助力提升产业链的韧性和供应链的安全性。

当前H30芯片实现了存算一体智能驾驶芯片从0到1的突破。据信晓旭透露,H30将于6月份开始给Alpha客户送测,后摩智能的第二代产品H50也在全力研发中,将于2024年推出,支持客户2025年的量产车型。

三、易部署的硬件平台,“用得爽”的软件工具链

无论是追求极致效率,还是让更多客户和生态伙伴用好存算一体芯片,除了需要优质的芯片外,也都离不开好用的软件。

为此,后摩智能打造了基于鸿途系列芯片的智能驾驶计算使能平台Sailing平台,共三大部分:

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

第一部分是后摩智能提供的使能交付件,包含硬件参考平台、对应的系统软件、软件工具链等,这些是量产级别的交付水平。

第二部分是后摩智能提供的参考设计,包括OS(操作系统)、中间件和算法等,以及上层自动驾驶感知、融合、规控和定位的参考代码。

第三部分是后摩智能与合作伙伴一起提供的传感器部分的验证列表和Model Zoo。

其中,后摩智能基于H30芯片打造了智能驾驶硬件平台力驭。力驭平台具有高性能、高可靠、低功耗、低成本四大特点,CPU算力高达200 Kdmips,AI算力达256TOPS,支持多传感器输入,功耗仅为85W,可采用更加灵活的散热方式,实现更低成本的便捷部署,助力推动大算力智能驾驶场景的普及应用。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS▲后摩智能创始人兼CEO吴强现场展示力驭平台

信晓旭说,后摩智能核心团队都是AI领域二次创业的老兵,在创业伊始就重点放在打磨高效易用的软件工具链上,要让算法开发人员们“用得舒服用得爽”。因此,其软件工具链的设计哲学总结为8个字——大道至简,大道至臻

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

为了兼容用户使用习惯,降低开发者学习成本,后摩智能基于H30芯片研发的软件开发工具链“后摩大道”,用户界面与其它大家熟悉的AI芯片算法开发界面是类似的,进而实现“存算一体技术是对开发者无侵入式的底层架构创新”。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

据介绍,后摩大道支持PyTorch、TensorFlow、ONNX等主流开源框架,编程兼容CUDA前端语法,同时支持SIMD和SIMT两种编程模型,兼顾运行效率和开发效率,并充分利用存算一体架构优势、层次化的内存设计,让编译器能大降无效数据搬运,降低带宽需求与时延,进一步实现了H30芯片的高效、易用。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS

结语:存算一体大算力芯片商用落地新阶段开启

生成式AI与大模型的爆火,加剧了AI时代对高性价比算力的渴求,也进一步催化了存算一体芯片的技术研发与商用进程。此前有多家知名行研机构预测,2023年将是存算一体走向规模化商业落地的元年,如今H30芯片的发布,开启了存算一体大算力芯片商用落地的新阶段。

在率先实现存算一体芯片在智能驾驶场景的量产落地后,后摩智能已跻身为国产智驾芯片行业的先锋力量,证明了中国企业在芯片创新架构具备自主突破能力。在算力需求剧增的当下,如果后续能够快速积累起客户口碑,将软件生态巩固成护城河,那么后摩智能“成为一家受世界尊重的中国智能芯片公司”的愿景,或许并不遥远。

抢滩下一代AI芯片!后摩智能推出存算一体智驾芯片,最高物理算力256TOPS