Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

芯东西(ID:aichip001
编辑 |  温淑

GTIC 2020全球AI芯片创新峰会刚刚在北京圆满收官!在这场全天座无虚席、全网直播观看人数逾150万次的高规格AI芯片产业峰会上,19位产学界重磅嘉宾从不同维度分享了对中国AI芯片自主创新和应用落地的观察与预判。

在峰会下午场,Imagination Technologies公司副总裁&中国区总经理刘国军,发表了题为《多核GPU与专用NNA推动从云到端侧智能应用》的演讲。

Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

▲Imagination Technologies公司副总裁&中国区总经理刘国军

刘国军讲解了Imagination的产品设计思路。随着AI赋能的时代来临,从互联网到物联网、从指纹解锁到高性能计算,各个领域对算力的需求高涨。后摩尔时代,异构加速计算成为满足全球各领域算力需求的可行解决方案。CPU、GPU、FPGA、ASIC、专用AI加速器的异构融合,为提高算力开辟了新的方向。

面向算力需求,Imagination打造GPU IP和神经网络加速器(NNA)IP的产品组合,分别着眼于AI计算的灵活性,以及高计算密度、低功耗需求。

Imagination分别于今年10月和11月,发布了采用多核架构的最新B系列GPU IP和第四代NNA IP。在GTIC AI芯片创新峰会上,刘国军亦分享了这两款重磅新品的性能特点,其中B系列GPU IP包含四款产品,功耗较前代产品降低30%,面积缩减25%,算力可达6TFLOPS,能满足从移动终端到自动驾驶应用的不同需求;而最新第四代NNA IP产品拥有全新多核架构,可提供600TOPS甚至更高的性能,能为大型神经网络工作负载提供极低的带宽和延迟。

以下为刘国军演讲实录整理:

一、Imagination所有知识产权没有源自美国

Imagination Technologies是一家全球领先的战略性独立的IP供应商。

1994年,Imagination在伦敦交易所上市。NEC和ST micro的PC以及世嘉Dreamcast游戏机,都采用过PowerVR 3D技术。后期公司GPU技术转向移动端,并获得了巨大成功。因为公司运营的成功,Imagination创始人和当时的CEO被英国伊丽莎白女王授予勋章。

基于GPU方面的成就近十年Imagination一直致力于研发人工智能IP技术,并开发了人工智能产品线。

2017年,在失去了最大客户后,Imagination被中资背景的凯桥基金会全资收购。

去年年底,Imagination曾经的最大客户重新回归,与Imagination达成新的多年期授权协议。

Imagination有最核心的关键专利,公司专利技术多达1500多项。采用Imagination IP的芯片发货量超过110亿。在全球很多地方,Imagination设有研发人员和销售机构。

还有一点很特别,目前Imagination所有的知识产权没有源自美国,这在当前的形势下很关键。

二、用“GPU+AI加速器破解算力需求

Imagination现有产品分两大类。

一类是GPU图形处理IP,可用于移动设备、物联网、微控制器、数字电视和汽车等众多市场领域。目前Imagination在全球移动GPU IP市场占有率为36%,在汽车GPU IP领域占到43%。Imagination今年刚推出的多核架构IMG BXT产品,能够达到数据中心的性能水平。

同时在图形渲染方面,Imagination是全球为数不多发布了硬件光线追踪技术的高科技公司。

Imagination还有一类产品是神经网络加速器NNA IP神经网络加速器,简单来讲就是AI计算加速。

Imagination构建了一个通用的计算平台和专用的人工智能网络加速的平台。此外还有以太网的数据处理器,这是汽车整体解决方案中的一个重要技术。

ImaginationGPU IPNNA IP应用范围很广,可应用在移动、汽车、物联、云游戏等各个领域。

GTIC AI芯片创新峰会的讨论离不开算力。在信息与数据的社会,从互联网上的几十亿数据,到物联网上数万亿的设备互相连接,这其中的AI应用需要强大算力的支撑。应用端也是一样,从一个指纹的识别到最高性能的计算,都需要算力来支撑。

传统的CPU远远不能满足当前从云到端的算力需求。从云端到边端,到2024年,数据中心市场可以达到约1000亿美元。在这当中,AI推理芯片在边缘计算市场占据了很大份额,达到约63.6%

随着AI边缘推理应用向前发展,大家可以看到,移动互联、工业、安防、物联网、多媒体、自动驾驶等领域中的相关应用逐渐落地。

算力需求怎么满足?Imagination选取的是“GPU+AI加速器的解决方案,用“GPU+NNA”面向自动驾驶和数据中心应用。

在边缘计算场景,AI 芯片主要承担推理任务。由于边缘侧场景多种多样、各不相同,对于计算硬件平台的算力和能耗等性能需求也不同。因此,不同于云端AI芯片需具备“高端、通用”的性能特点,应用于边缘侧的AI芯片需要针对特殊场景进行针对性设计,以实现最优的解决方案。

IMG的边缘侧推理解决方案将GPU和NNA相结合,灵活地将不同的工作负荷分配到最适合的硬件单元,最大限度地发挥不同硬件单元的性能。

Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

三、全新B系列GPU IP & 4系列 NNA IP均采用多核架构

今年十月份,Imagination在北京发布B系列的GPU。随后在11月,Imagination发布第四代NNA IP。最新一代GPU IPNNA IP有什么特点?在AI芯片获取算力方面,做出哪些提升?

刘国军分享,B系列GPU IP共包含BXEBXMBXTBXS四款产品,从低到高提供不同的性能。

其中,BXS是符合ISO 26262标准的汽车GPU IP内核,采用虚拟化技术及分块区域保护技术,具备全新的功能和安全机制。这些功能都集成在硬件中,对于汽车GPU和自动驾驶应用而言,这种设计有利于提升安全性。

BXT采用多核架构,算力可达6TFLOPS、192Gigapixel/s,且具备可扩展性,可以去中心化。针对7nm5nm制程,BXT可做特定优化,以满足从移动终端到数据中心的使用需求。

新的架构在多核配置的时候,与传统的配置有所不同。针对memory多核算力增加时的效率问题、memory的读取存储问题,Imagination也有比较好的解决方案。

对比市场上使用同样半导体制造工艺的PCIe显卡,IMG BXT具有更高的计算密度。这意味在同样的硅片面积下,BXT可以提供更高的单精度(FP32)运算能力。

Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

Imagination最新4系列NNA IP也采用多核架构,这是NNA IP系列的第四代产品。

NNA IP系列第一代产品没有发布。第二代NNA IP产品PowerVR 2NX于2017年在深圳发布。PowerVR 2NX单核IP运行在保守频率800 MHz,能提供2048 MACs/cycle(行业标准性能指标)操作,即可达到每秒3.2万亿次推理操作。

紫光展锐采用这款IP开发的虎贲T710芯片,在去年的Benchmark跑分中拿到第一名。

今年最新发布的第四代NNA IP计算效率和计算密度都十分杰出。4NX-MC4一个四核方案可提供50TOPS算力,由于具备可扩展性,基于最新NNA IP的解决方案可将算力扩展至200甚至500TOPS

Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

多核的特点是什么?是可扩展。在整个计算过程中,多核架构可以做到近memory计算,降低延迟。另外,多核架构的各种调度和分配方式都十分灵活且可预测。

NNA IP可以多网络运行,也就是说一个核可同时运行多个网络,同一个网络也可以切分到不同的核上去运行,这样就可以预测计算的时间。Imagination有一个离线工具,来对特定应用作分配和调度。

根据各类实验结果,ImaginationTensor Tiling技术(ITT)平均可以降低90%的带宽。

目前,Imagination正在为ITT技术申请专利,这项技术也被应用于4系列NNA IP。

ITT技术可以通过对计算任务进行tiling,充分利用片上存储,提升数据处理效率,并节省访问外部存储的带宽。利用本地数据的依赖性,ITT技术可将中间数据保存在片上存储器中,最大限度地减少将数据传输至外部存储器,从而将带宽降低多达90%。作为一种可扩展的算法,ITT在拥有大量输入数据的网络上具有显著优势。

Imagination的解决方案里,GPU承担计算任务,同时承担渲染的任务;NNA承担神经网络计算任务。

GPU的渲染能力基于Imagination已经出货多年的专利技术——硬件虚拟化。

借助硬件虚拟化技术,一个GPU可以承担多个屏的计算渲染任务,支持多个操作系统。同时,多个GPU之间有物理隔离,不会相互干扰。

这样就实现了结合GPU的灵活性和NNA的效率,再加上memory,形成一个异构的计算平台。

这个异构计算平台具备非常灵活的任务分配和配置功能,上面是两个GPU,下面是NNA,中间有内部的总线。这是一种非常有效的算力配置方法,能满足从ADAS到自动驾驶的功能需求。

Imagination刘国军:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

同时,Imagination提供统一的API,可以给开发者提供统一的接口去支持各种不同的网络。对工作量和网络类型的适配,都可以由统一的API支持。另外,GPU IPNNA IP支持同一个开发工具,这方便了广大开发者的使用。

以上是刘国军演讲内容的完整整理。除刘国军外,在本届GTIC 2020 AI芯片创新峰会期间,清华大学微纳电子系尹首一教授,比特大陆、地平线、燧原科技、黑芝麻智能、壁仞科技、光子算数、知存科技、亿智电子、豪微科技等芯片创企,全球FPGA领先玩家赛灵思,知名IP供应商安谋中国,全球EDA巨头Cadence,以及北极光创投、中芯聚源等知名投资机构,分别分享了对AI芯片产业的观察与思考。如感兴趣更多嘉宾演讲的核心干货,欢迎关注芯东西后续推送内容。