解密燧原云端训练芯片背后的底牌

芯东西(公众号:aichip001)
文 | 心缘

面对巨头环伺的云端AI芯片战场,一家中国AI芯片创企刚刚吹响冲锋的号角。

就在昨日,燧原科技官宣了其首款云端训练芯片邃思DTU、云端训练加速卡云燧T10及计算及编程平台驭算,云燧T10单卡单精度算力达到20TFLOPS,放在全球云端训练芯片中比较也丝毫不落下风。

解密燧原云端训练芯片背后的底牌

技术难、成本高、风险大、回报周期漫长等因素宛如一座座高山,将许多对造芯心向往之的创业者拒在云端训练芯片的门外。燧原科技创始人却毫不犹豫地选择先攻克云端训练方向,而且从启动研发到开始量产首款云端训练芯片只用了短短20个月。

这家不足两岁的AI芯片创企,凭什么直攻这一AI芯片界难度最高的领域?它的创业团队有怎么样的技术基因,能否支撑起云端训练产品的研发需求?面对强手如林的国际战场,它有哪些差异化打法?

通过与燧原科技创始人兼CEO赵立东、燧原科技创始人兼COO张亚林深入沟通,芯东西一步步还原燧原科技首款云端芯片背后的技术底牌,两位创始人也向我们系统展示了燧原的业务部署和落地策略。

一、AMD老兵创业,曾领导研发XBOX ONE和小霸王游戏机主芯片

燧原科技的两位创始人赵立东和张亚林在AMD工作时,就曾是配合默契的老搭档。

2008年1月,张亚林刚加入AMD,赵立东是他的直属老板。两个人合作了大约五年,赵立东负责整个团队的构建、项目争取,张亚林做执行和芯片的产出。

解密燧原云端训练芯片背后的底牌

▲燧原科技COO张亚林

风靡全球的家用游戏机微软XBOX ONE系列,采用的主芯片即是由张亚林在AMD上海研发中心领导研发。

据张亚林介绍,游戏机芯片设计与云端芯片设计有共通之初,都是大芯片,而大芯片设计有一套严格的方法学,芯片越大,整个设计难度也会呈指数级上升。

以微软XBOX ONE主芯片为例,它既要跑操作系统,又要能跑游戏,是一块由CPU+GPU结合的APU,设计难度非常高。

挑战不止在设计本身,还有芯片工程化问题。

像XBOX ONE这样一年需量产几千万台的游戏主机,要求大芯片能尽快量产。这也是国产大芯片企业行路艰难的核心原因之一。

经过多个世界级芯片项目的磨砺,赵立东和张亚林都积累了深厚的芯片设计和工程化经验。

解密燧原云端训练芯片背后的底牌

▲燧原科技CEO赵立东

2014年末,两人的同事关系暂时画上句点。赵立东跳槽到紫光通信科技集团任副总裁,张亚林仍然留在AMD。

“我和立东在AMD有一个约定,”张亚林回忆道,“希望为中国做一些中国人的本土化项目。”

2016年,机会来了。老牌国产游戏机品牌小霸王在中山重新崛起,交给AMD大笔费用来做中国自主品牌的游戏机项目,这个项目几经辗转到了张亚林手中,目标是造出一颗超大型芯片,使小霸王游戏机的性能超过当时最先进的XBOX ONE的50%。

“我觉得,那是我留在AMD的最后一个梦想。”这一项目在2017年9月整体收尾,张亚林选择离开,与时任紫光集团副总裁的赵立东再次会合,投身于另一个颇具挑战性的领域——云端AI芯片。

二、政策支持,腾讯投资,人才技术均已就绪

当他们选择创立燧原科技并定下云端AI芯片方向时,云端数据中心中的国产化AI芯片尚如一片荒原。

AI的发展是由模型算法研究推及云端终端的部署,如果上游的云端训练模型受到国外的掣肘,那么整个AI发展都会被限制。

秉持着让中国拥有更多自主前瞻性模型的初心,近20年的芯片研发经验积淀,以及长期就职于外企而日渐浓厚的家国情怀,促使两位燧原创始人决定在云端芯片高举高打。

在张亚林看来,芯片工程化、市场应用与算法的整合、软硬件加生态的全栈式设计能力,成为阻碍中国云端芯片快速成长的三座大山。

毕竟,单独做出一颗能拿出来看的芯片,和整个市场都能用的软硬件解决方案,中间还隔有相当的距离。

不过这一距离在两位燧原创始人眼中,并非是难以跨越的鸿沟。凭借此前在业界积累的口碑,他们快速在新赛道上集结了各种对创业有利的因素。

人才和技术方面,中国集成电路产业经过近20年的发展,芯片设计人才和技术储备均已成熟,足以研发大芯片。如今燧原207名成员中,研发团队占90%,来自全球30多家公司,平均工作年限10年以上,有丰厚的技术沉淀。

政策和资金方面,燧原也获得了上海市自由贸易试验区临港新片区及多家投资机构的大力支持。燧原分别在2018年7月和2019年5月完成超3亿人民币的融资,前者由腾讯战略领投,后者由红点领投。

解密燧原云端训练芯片背后的底牌

有趣的是,作为国内AI界的投资大户,腾讯向提供资金支持的AI企业多聚焦于算法、软件与应用层面,鲜少关乎芯片研发。

市场机会、应用空间、人才红利、数据资源、人才储备、技术储备、政策引领、资本支持等使能引擎均已就绪,共同驱动燧原云端芯片在AI和集成电路交叉赛道上驶向前方。

三、如何实现最强单精度算力?燧原的三大核心技术优势

底层硬件的加速效率、性价比、能效比、可扩展性、易用性,以及是否可以有定制化、差异化,直接关乎整体业务的好坏。因此拿出有足够硬核的芯片产品是任何一家AI芯片创企的首要任务。

昨天,燧原推出核心产品云燧T10,内嵌云端AI高性能通用训练芯片邃思、搭载了计算及编程平台“驭算”,覆盖硬件与软件。

解密燧原云端训练芯片背后的底牌

▲燧原首款云端训练芯片邃思

从公布的算力和测试指标来看,燧原已初步证明了自身的技术实力。

邃思芯片采用格罗方德12nm FinFET工艺和2.5D高级封装技术,基于可重构芯片设计理念,具有高度并行化的特点,可实现通用可编程,并且能适配现有及未来可能的数学运算,适用于图像、数据流、语音等各种训练场景。

云燧T10单精度(FP32)算力达到20TFLOPS,半精度及混合精度(BF16/FP16)算力达80TFLOPS在ResNet-50模型上每秒处理帧数为518fps,单位能耗下性能比达2.3fps/W。

这些成绩即便放到全球云端AI芯片领域来看也可圈可点。另外燧原还计划在明年推进多卡互联的Benchmark测试。

解密燧原云端训练芯片背后的底牌

张亚林认为,燧原科技在技术方面有三大核心优势。

其一,燧原推出的是覆盖软硬件和系统的全栈式解决方案。

其二,燧原在整个芯片研发过程中,融入大量专门针对AI加速的设计,并抛弃传统设计与AI不相关的东西,致使整个AI软硬件系统性价比得到极大提升。

尽管赵立东和张亚林都拥有丰富的CPU/GPU/APU相关研发背景,但他们打造的邃思芯片,在架构上没有借鉴任何GPU设计经验,而是从无到有的设计了一套单独指令集和处理器,抛弃了以前所有的历史包袱。

邃思芯片的计算核心包含32个通用可扩展神经元处理器(SIP),每8个SIP组合成1个可扩展智能计算群(SIC)。SIC间通过HBM实现高速互联,通过片上调度算法,数据在搬迁中完成计算,从而最大化SIP利用率。

其三,燧原走的是全团队开发模式,在后续与客户的对接过程中,在本土化方面可提供最快速的响应和技术支持。

解密燧原云端训练芯片背后的底牌

此外在互联方面,燧原自研200GB双向ESL(Enflame Smart Link,燧原片间互联)技术,可实现芯片与芯片间、板卡与板卡间的高速互联,在成本和算力拓展上均有较大优势,在1024节点集群规模下,其训练线性度加速比达86%。

软件是提升芯片易用性的重要工具,燧原对软件及工具链同样做了充分布局,打造了计算及编程平台驭算。

解密燧原云端训练芯片背后的底牌

一方面,考虑到现有AI生态,驭算完全支持TensorFlow,下一阶段将支持PyTorch、MXNet、ONNX等主流深度学习框架。上层客户用这些框架做开发时,可以很快适配到燧原的软硬件上。

另一方面,面向深度开发者,驭算也提供完整的开源工具链、SDK和软件函数库,使得对底层硬件资源有更多需求的开发者能与燧原合作定制甚至改动部分函数库,从而实现硬件更为有效的加速。

四、聚焦三大业务方向,定制化合作满足差异化需求

从2019年起,全球AI芯片的核心话题已经从“拼性能”转移向“拼落地”,不仅要求有好的算力和效能,还要在落地具体业务场景时,能够尽可能的挖掘这些性能。

当前燧原的业务主要聚焦在三大方向:一是包括公有云、私有云、混合云的云服务商,二是金融、保险、医疗、互联网等领域有很强模型训练需求的行业客户;三是AI超算中心和智慧城市。

经由对规模、性能、成本的综合考量,燧原为大中小型数据中心提供单节点模式(标准PCIe卡)、单机柜模式(整个机柜)、集群模式(ESL高速片间互连)3种互联方案,以满足不同客户对深度学习的训练需求。

解密燧原云端训练芯片背后的底牌

▲包括8个云燧T11(OAM模组)的AI训练Box,通过OCP标准专用接口与CPU服务器相连

在首批客户的选择上,燧原也非常审慎。

张亚林表示,燧原当前寻求的,是如何更有效地与有强相关性的合作伙伴产生互补效应。

燧原希望在中国找到志同道合的第一批客户,来优先将更高性价比的AI训练解决方案落地到这些客户的业务场景,通过深入定制化合作,满足客户的差异化需求,从而产生更多前瞻性的AI算法,打破垄断局面,加速AI算法的产生与落地。

在同客户接触时,燧原不急于立刻开展业务,而是先从客户现有的业务模型当中进行泛化、抽取,以降低软件迁移成本。

除了云端训练产品外,燧原也有云端推理产品线。张亚林透露,打通从训练模型产生到推理模型部署的整个环节,是燧原在未来三年要构建的全生态终极目标。

不过燧原暂时还没有入局终端芯片的规划。张亚林认为,云端的难度主要在技术和生态壁垒,而终端的难度则在于在细分市场找到定位,市场碎片化、算法碎片化问题导致一款终端芯片很难打通用市场,至少要几十万片的出货量才能补足前期开发投入的成本。

赵立东也提到,作为一家初创公司,燧原首先将有限的资源聚焦在一个点上,把这个“冰”破开,再横向铺开,这个市场就变得更加水到渠成。

解密燧原云端训练芯片背后的底牌

▲燧原科技首款云端AI训练加速卡云燧T10

截至现在,燧原科技已建设顶级工程化团队,完成产品研发和量产,实现产品热启动,开启首个AI训练平台的商业化落地。

下一步,燧原将继续打造拥有高能效比、高利用率、高性价比的芯片,吸收软件迁移成本,并逐步完善市场销售、服务支持体系建设,不断丰富产品解决方案,打造对用户更友好易用的软件工具,并持续引进高端人才,寻求建立广泛的开源软件生态系统联盟。

另外,张亚林也希望能从研发、产品定义、花销、客户支持,创造一个多维度稳定平衡的健康财务结构,将未来主动权掌握在自己的手中。

结语:明年AI芯片继续拼落地

2019年被称为AI芯片落地元年,张亚林相信,落地同样也会是2020年的关键词。

他表示,燧原希望能为做出达到世界水平的国产化芯片和软硬件系统,并且有信心明年上半年打破AI商业落地的魔咒。

燧原在云端AI芯片领域的一些思考,对于其他芯片设计创企同样有借鉴意义。正如魏少军教授所言,芯片不是搭草台班子就能做好的,不仅要有硬核技术实力、工程化能力和团队完整性,还要思考怎样才是对的方法、时机、方向、产品和客户。

打破国外在云端芯片市场的垄断绝非易事,但至少燧原已经迈出了充满勇气的第一步。我们也期待更多中国芯能够迈过技术和落地的一道道难关,经受住时间和市场的考验。