壁仞科技首款GPU亮点剧透!独家对话CTO洪洲

芯东西(公众号:aichip001)
作者 |  心缘
编辑 |  漠影

成立18个月,累计融资逾47亿元,两个月前的上海壁仞科技,因为“吸金”能力大刷一把存在感。

GPU(Graphics processing unit)图形处理器,又被称作显示芯片,是擅长做图像图形相关运算工作的微处理器。进入后摩尔时代,GPU应用能力愈发超出图形渲染,被用到通用计算领域。尤其伴随着人工智能(AI)应用趋火,一批主攻云端通用智能计算的GPGPU创企诞生。

壁仞科技即是国内GPGPU创业潮中的新秀之一。自2019年9月成立以来,壁仞科技的融资一轮接着一轮,动辄单笔逾十亿人民币,虽然相较于英伟达单款芯片数十亿美元的研发投入仍有较大差距,但这样密集而强大的融资能力,令不少看客讶异。

继新融资后,它又马不停蹄地国内顶尖高校签订新的合作协议,包括合作清华大学,推进“通用图形处理架构与应用创新研究专项”;合作复旦大学,共建“智能计算芯片联合实验室”。

在获得多家知名投资机构青睐的背后,这家神秘创企有怎样一支强大的创始团队坐镇?在技术和落地方面有什么差异化打法?它所押注的GPGPU赛道,会是催火国内云端AI芯片的好生意吗?

针对这些问题,近日,壁仞科技CTO兼首席架构师洪洲(Mike Hong)接受芯东西的独家专访,讲述从担任海思自研GPU负责人和首席架构师,到进入壁仞科技创业的幕后故事,并分享了在GPU芯片设计及人才培养方面的一些心得体会。

洪洲告诉芯东西,壁仞科技同时支持AI训练和推理的首款7nm芯片开发进展顺利,预计今年正式流片,性能将对标英伟达下一代GPU计算芯片。壁仞科技的第二款芯片也已经启动架构设计。

壁仞科技首款GPU亮点剧透!独家对话CTO洪洲▲壁仞科技CTO兼首席架构师洪洲

一、吸金创始团:华为高通GPU架构大神带队

壁仞科技给外界留下的第一印象是“吸金猛兽”。

成立不到一年,壁仞科技接连在2020年6到8月拿下多轮融资,不仅以11亿人民币刷新业界A轮融资记录,而且去年累计融资已接近20亿元。今年3月底,壁仞科技又宣布累计融资已增至47亿元。

从投资方阵营来看,其中不乏启明创投、IDG资本、华登国际、高瓴资本、格力创投、中芯聚源等知名投资机构。选择押注在这样一家初出茅庐的创企,他们究竟看中了壁仞科技的什么特质?

洪洲给出的答案是:

壁仞科技创始团队,在创业之初,已经展现出汇集人才的能力、团队执行能力,以及整合多方资源的能力:

创立壁仞科技前,创始人、董事长张文曾任AI独角兽商汤科技的总裁,并主导了商汤在上海、成都等地的大规模合作落地项目。他还曾与中芯国际创始人张汝京博士共同创办LED产业园以及LED芯片企业映瑞光电。

硬件架构负责人洪洲拥有近30年GPU架构设计经验,在GPU架构设计、渲染算法、光线跟踪算法、并行计算、GPGPU、X86和Arm SoC的架构设计等方面有50多项已获批准的专利。

软件生态负责人焦国方曾是华为Futurewei公司GPU技术首席科学家,负责GPU相关的所有软件生态;还曾在高通工作11年,成功领导和研发了5代高通Adreno移动GPU架构。此前他亦在老牌图形芯片供应商Trident、S3 Graphics工作数年。

壁仞科技的另外两位联合创始人徐凌杰、张凌岚,均是产业界的资深人士,拥有丰富的从业经验。

“壁仞科技汇聚了大部分最顶尖的华人GPU架构师。”有人这样评价。

对于这一说法,洪洲认为非常贴切:“从90年代开始的20多年内成长起来的(华人)架构师,基本上都在我们这边。”

二、27年经验积累,曾组建海思GPU研发团队

洪洲本科毕业于北大“王牌专业”数学系,继而选择在清华经管学院攻读当时很火的数量经济学硕士。

20世纪90年代初,正是图形芯片的黄金期,还在纽约州立大学攻读计算机科学专业的洪洲,硕士毕业即开始研发计算机图形芯片,一做就是27年。

GPU亦是在那个时期诞生,最初仅作为图形显示芯片。21世纪前后,图形芯片市场经过一轮荡气回肠的厮杀较量,英伟达与ATI两家巨头脱颖而出,将其他竞争者或吞并或逼至绝境。到2003年左右,GPU开始被用于通用加速计算。

洪洲在那时负责设计英伟达Tesla架构和性能调优,英伟达第一版CUDA即基于该架构开发。他还分别在S3 Graphics、兆芯等知名企业领导和管理GPU研发项目多年。

在积累了足够的GPU研发经验后,2016年,洪洲入职华为美研所,组建了一个遍及全球数百人的海思自研GPU团队,推进全球领先且拥有自主IP的GPU芯片研发。焦国方也是同年进入华为在美国的业务主体Futurewei,任GPU首席科学家。

三、对标英伟达下一代产品,首款芯片今年流片

洪洲与张文是在2019年上海世界人工智能大会上遇见的。当时两人深聊之后一拍即合,发现在通用计算、国产大算力方面的很多共通的理念。

同年9月,壁仞科技在上海创立,致力于开发基于原创性的高性能GPGPU产品的通用计算软硬件体系。洪洲也在不久之后正式加入壁仞科技。

公司一成立,其第一款通用算力芯片研发随即开始全方位启动。

壁仞科技首款GPU亮点剧透!独家对话CTO洪洲▲壁仞科技

通过采用高端封装技术,壁仞科技的第一款GPU芯片定位高端通用智能计算,具备高性能、可扩展性、可虚拟化等特性,支持云端训练和推理,目前已经到了收尾阶段,预计将在今年流片。

这颗芯片对标的,是国际GPU霸主英伟达还在酝酿之中的下一代5nm GPU计算芯片。

当然,一家初创公司如果刚起步就全面对标英伟达,无异于以卵击石。对此壁仞科技的策略是,先聚焦几个点上,打一场不对称的战争

英伟达GPU并非面向AI训练和推理的最优芯片,而是一个多能力芯片。以A100为例,其双精度对HPC很重要,但对AI加速来说,其在能效比、算力等方面并非最优解。

因此壁仞科技选择首先专攻通用AI训练和推理能力,将图形渲染等与AI加速无关的设计剥离掉,更聚焦于在自家芯片上如何合理安排更多的运算和存储单元。

“如果纯粹从硬件来说,我们是有比较大的胜算的。”洪洲说,不过毕竟英伟达在软件、生态方面积累深厚,因此壁仞科技面临的关键问题,是如何补足这些缺口。“我们也知道,我们不可能很快补足它,但我们有信心。”

从研发伊始,壁仞科技就做好了前瞻性规划,与供应商、生态合作伙伴及客户早早开始沟通,已对客户需求分析地非常清楚。等芯片流片后,壁仞科技下一步将重点推进加速芯片商用落地的软件工作。

壁仞科技的另一个胜算是天时、地利、人和如今很多英伟达用户愿意看到另一个选择,无论是商业用户,还是国家层面数据中心,对国产化的需求都与日俱增。这些对于包括壁仞科技在内的国内企业,无疑是难得的契机。

随着首款芯片进入收尾,壁仞科技的第二款芯片已经开始启动架构设计,之后壁仞科技还将逐步推出面向智算中心、云游戏、边缘计算GPU芯片。

四、解析壁仞科技GPGPU三大亮点特性

除了对标英伟达,壁仞科技也面临着与多家国内云端AI芯片及GPGPU创企的竞争。

在壁仞科技团队看来,客户习惯是芯片研发的至上准则。正如开惯了法拉利的人不愿骑三轮车,用惯了英伟达V100、A100等国际主流芯片的客户也不会乐意用算力一般、不好用的芯片。

这一背景下,壁仞科技着重优化其芯片的3个亮点特性:通用性、高算力、芯粒(chiplet)技术。

1、通用性:从兼容CUDA到取代CUDA

“我们要做一个真正能落地的、能兼容现在的生态的、真正能大规模量产的通用架构。”洪洲说。

在洪洲看来,新的GPU板卡要无缝地支持CUDA生态,这比更高的算力,更好的能效比更重要。

因此,目前阶段必须保证用CUDA写的程序能无缝运行在壁仞科技的异构计算开发平台上,不应当为了追求所谓的极致能效,而打破对通用编程模型的兼容性。

当前壁仞科技的第一要务是在打造自有编程模型的同时,兼容CUDA当前版本,并会面向未来的设计,新增很多东西,使程序能跑得更快更好。

这只是第一步,壁仞科技的终极目标,是提供比CUDA更好的自研编程模型

壁仞科技首款GPU亮点剧透!独家对话CTO洪洲▲壁仞科技异构计算开发平台

2、高算力:融合多种架构的优点

“高算力对我们来说极端重要。”洪洲说,壁仞科技芯片的单位瓦算力非常高,并且有信心打败英伟达下一代产品。

达到这一性能表现,离不开其芯片架构的优化——以通用性为根本的同时,在专用领域做深耕、优化,融入多种架构的优点。

传统GPGPU主要做向量运算,但对于AI加速来说,矩阵运算对数据的带宽需求比向量操作低。

考虑到这些问题,壁仞科技不拘泥于传统的向量流处理架构,而会在其理念中加入数据流处理单元、近存储计算架构等其他元素,并对重点场景进行特殊优化,使其能处理各种数据类型,从而在同等能耗上,获得比英伟达高好几倍的算力。

单颗芯片算力的提升只是一个点,壁仞科技还在其芯片中引入非常高的互连带宽,能做到数百数千的芯片大规模拓展,从而实现集群化大算力。

对于数据中心而言,未来算力将是王道。如果能将单卡算力提高2倍,其他条件不变时,综合性价比则有望提高2倍,相应地,数据中心服务器的总拥有成本(TCO)就会降低约一半。

3、芯粒(chiplet):提高性价比的必备技术

当先进芯片制程走向7nm、5nm、3nm,芯粒(chiplet)成为一种愈发热门的技术方向。

一颗芯片上有不同功能的组件,如果这些组件全部用最先进的技术节点来制造,成本将非常高。

而芯粒技术的价值在于,允许不同组件分别选择其合适的技术节点来生产,然后再像拼乐高一样堆叠封装在一起,不仅提高芯片整体性价比,也能通过更有序的配置来提升芯片处理能力。

英特尔、AMD等大公司均在积极探索芯粒技术。该技术对小公司同样有价值,如果不走芯粒方向,无论是产品性价比,还是能接触到的市场空间,都会有很多局限性。

“我们的芯片已经采用chiplet技术,可以说比英伟达走得快。”洪洲说。

五、团队扩至400余人,三招解决人才困境

在洪洲看来,缺少原创的芯片架构是中国现存的一个短板,当前国内真正做原创性GPU的团队非常稀缺。

两大国际GPU巨头中,英伟达在国内没有核心IP研发团队,AMD在上海只有一小部分研发团队。国内真正从GPU底层架构和软件做起来的,只有原来的兆芯团队和现在的海思团队。

但原创性不是照着别家的架构比葫芦画瓢,而是真正解决整个通用计算问题。这需要组建一支有多年积累的、全面性的团队,除了硬件人才外,软件人才、编译器人才也极为关键。

壁仞科技团队有很多成员来自产业链各环节的领先企业,覆盖架构、设计、验证、后端、封装、系统、软件等环节。洪洲总结该团队“非常强大,是一个成建制团队”。

如何解决国内GPGPU人才稀缺、优质人才招募难度升级的问题?壁仞科技思考了三条路径:持续吸纳国内人才、招募海外人才、培养新鲜血液

“壁仞科技团队的凝聚力极强,也在不断吸引海内外的人才加入。”洪洲认为,顶尖高校的优秀毕业生如果能被培养好,可能会比国内一些有经验的GPU工程师更具战斗力。

截至目前,壁仞科技的团队已扩张至400其中约有4/5在上海,其他团队则分布在北京、珠海和北美,未来也计划拓展到更多其他城市。据他透露,已经有不少在海外招募的GPU高端人才回到国内做全职。

结语:云端算力争夺战方兴未艾

在去年GTIC 2020全球AI芯片创新峰会上,壁仞科技联合创始人徐凌杰谈道,壁仞科技与其他芯片企业的关系并非是“竞争”,而是“竞合”。

“壁仞科技需要更多人才加入到这个行业中,有了这样的硬件生态和商业生态,才能打造好基础设施,”他期盼这个生态能更加繁荣,“越来越多的人看到基础设施和算力间的矛盾,看到基础设施的不足,才能夯实我国的信息高速公路。”

看到机会的不止是壁仞科技,除了早先入局的寒武纪、比特大陆、燧原科技等云端芯片创企外,过去一年间,陆续有新玩家现身,大量资本也正积极地涌入这一赛道。

对于高额融资带来的名气和质疑,洪洲并不关心,“这个产业向来是用产品说话,我们只关注自己(的研发),把我们自己(的产品)做好。”

而从已有进展来看,国内云端AI芯片及GPU赛道的硝烟才刚刚开始弥漫,入局者变多,但规模化落地成果尚不明显,这场围绕云端算力的资金、人才、市场争夺战显然还未到高潮。