对话天数智芯CEO:通过简化GPU功能降成本,拟三年构建工业互联网产业联盟

智东西(公众号:zhidxcom)
文 | 心缘

智东西10月21日报道,上周,国内AI全算力系统平台及解决方案提供商公司天数智芯,推出其首款边缘端AI推理芯片Iluvatar CoreX I(EPU)。智东西曾进行现场报道(国产GPGPU增添新势力!天数智芯首推边缘AI芯片)。

对话天数智芯CEO:通过简化GPU功能降成本,拟三年构建工业互联网产业联盟

期间,天数智芯创始人、董事长兼CEO李云鹏接受智东西等少数媒体的采访。在简单回顾创业前经历后,李云鹏就创业的核心诉求、其EPU芯片与现有AI芯片、GPU芯片的差异性,以及天数智芯的生态定位及三年目标等话题进行分享。

此前智东西曾对天数智芯的定位布局、产品技术逻辑、创业打法打法等做深入报道(对话天数智芯CEO:GPGPU的国产化时代将至!)。

一、受图灵奖得主影响,看重基础性工作

李云鹏是南京大学电子科学计算系2002届毕业生,毕业那年,南大举办的一个诺贝尔论坛对他造成了很深的影响。

这个论坛请到了第一位也是唯一一位获得图灵奖的华人计算机科学家姚期智院士,当时姚院士还在做计算机理论最低复制性能的复杂领域,这是计算机领域基础却很难看到应用场景的领域。李云鹏问他为什么要做这件事,姚院士说了两句话,第一句话是,这个事情总要有人做吧。第二句话,我们做的工作,正是因为是基础的,它的改变是缓慢的,但是整个计算机的发展,都是和基础领域的发展息息相关,当技术上有重要变革的时候,上层建筑的变化才会有更多灵活发展的空间。

毕业后,李云鹏前往维斯康斌大学从事计算复杂性的工作,并于2005年加入美国甲骨文公司,从一个纯理论的工作者,进入一个技术公司。“好像从达摩院练几本经书一下子跑到少年四去开镖局的工作。”李云鹏说。

他加入甲骨文时,甲骨文共有12名员工,其中做数据库的不超过1000人,可见1000人左右做的基础性产品,能够支撑十几万人的大公司。

对话天数智芯CEO:通过简化GPU功能降成本,拟三年构建工业互联网产业联盟

▲天数智芯创始人、董事长兼CEO李云鹏

在这种情况,2015年,李云鹏选择回国在南京创立天数智芯。自创立以来,公司一直在思考两件事。

一是要做什么、要到怎样的结果?李云鹏认为要做基础的工作,如果不做基础的事情,只做上面繁花似锦各类应用,迭代周期很快,实际上这样的工作本身,细分化非常明显。

二是做这样的基础工作,核心诉求是盈利,要通过市场的方式,从客户那里得到收入。而要获得盈利,就要为客户创造价值,解决客户的痛点和难点。

具体的应用诉求五花八门,但整体来看,李云鹏发现通用、标准、高性能的需求没有变。

二、和现有AI芯片相比的三个差异点

在EPU芯片发布前,天数智芯都是以软件提供商的身份出现在公众视野。

李云鹏认为,正是天数智芯在此前三年多的时间里通过软件的方式切入客户,了解客户已有的整体性能,再加上他此前在甲骨文工作得到的经验,客户看重的是实际生产场景中的综合系统性能提升,而非单单只追求某个非常高的数字。

据他介绍,天数智芯提供的芯片产品有透明迁移的特点,不做任何修改,仅通过软件的方式即可有延续性,减少了适配的时间。另外,软硬件结合的方案将整体性能显著提升,从完整系统产品替代的角度来说,基本在所有面向的场景都能达到客户的性能需求。

相比现有同类AI加速芯片,李云鹏认为天数智芯的EPU主要有三个差异点。

第一,天数智芯做的是通用型计算采用图像图像处理架构(GPGPU),是一个并行处理器的基础芯片。他认为市场对芯片的需求是多元的,天数智芯的芯片产品可在市场上多个场景应用,并且可以销售足够长的时间。

第二,在随后的芯片推进过程中,已有的这款EPU芯片的核心IP可融合到GPGPU框架中。 

第三,从可配置的灵活性来说,EPU芯片与PCle4.0充分结合,边缘端1颗,云端8颗,都根据场景不同,芯片可以组成不同的板卡系列产品。

同时,其芯片既可与市场主流的x86 CPU适配,也可同基于Arm的各类CPU实现充分灵活的配置。

对话天数智芯CEO:通过简化GPU功能降成本,拟三年构建工业互联网产业联盟

李云鹏说,从拿出指标来做一款具体芯片,到最后留片,他们的芯片团队只花了不到四个月时间,在芯片及外围的带宽、频率等参数上,都做到了理论的最高值水平。

三、降低造GPU难度,良率更高、成本更低

那么,天数智芯的GPGPU在芯片微架构设计上和现有GPU有哪些不同呢?

李云鹏告诉智东西,大家耳熟能详的GPU是做图形图像处理,而天数智芯所做的芯片去掉了图形图像显示功能,直接向数据做支撑,这样要做到同等的算力,芯片面积就会更小。这也是天数智芯的GPGPU在功耗、性能上能做好的关键原因。

由于天数智芯是一家初创公司,李云鹏意识到,第一天就去挑战珠穆朗玛峰,挂的几率非常高。

他说,在通用计算领域,GPU虽然市场没有像CPU那么大,但它的技术难度可以说是珠穆朗玛峰这么高。创业要做跳起来刚刚够得着的事情,去掉难度高的图形图像部分,相当于将难度从珠穆朗玛峰降到了青藏高原的水平。

在整个高端通用芯片领域,毛利率达到百分之五六十是基础水平。

天数智芯的成本之所以能降下来,与芯片大小与制造良品率成非线性反比的特点有关,芯片越大,良品率越低。因此天数智芯严格控制芯片的面积,其下一款对标NVIDIA V100的旗舰产品面积仅400平方毫米左右,约为V100的一半,良品率理论上应该会比V100高出若干倍,因而能够突出性能更好的同时,成本还会降低。

初创公司面临的难题还有在生态中找准定位。李云鹏认为,因为缺乏充足的资金,初创公司自建一套生态是不现实的,天数智芯选择以技术赋能的方式衔接、承载开源生态,并与客户的关系紧密耦合,根据客户选择提供一些专用的支持。以此方式不断拓展合作伙伴联盟,和更多AI创业公司、应用型创业公司、服务器制造厂商、IDC厂商以及产业巨头等一起合作,提供安全可控的全国产化算力解决方案,同时可为终端客户提供AI的或者IT的技术服务,从而逐渐将商业生态体系建立起来。

天数智芯希望在三年左右的时间内,实现在中国整个工业制造领域,构建一个基于天数智芯的工业互联网产业联盟,同时不仅能盈亏平衡,而且能够足够的利润扩充自己的基础投入团队,使其有机地发展至少20年,把自己的产品做到国际一流的入门水平。

结语:国产GPGPU增添新势力

上个月,天数智芯刚刚完成B轮融资,金额达数亿元人民币,由大钲资本、Princeville Capital领投,上海电气香港有限公司、邦盛资本等跟投。

经过三年多在底层软件平台的深耕,天数智芯对客户需求有更清晰的认识。其软硬件协同的系统级打法如果推进顺利,或将为国产化GPGPU开辟一条新的可行之径。