AI从业必看!英伟达GTC China大会最新干货

芯东西(公众号:aichip001)
作者 |  心缘
编辑 |  漠影

芯东西12月15日报道,距离2020年末还有两周,今天,NVIDIA 2020年全球GPU技术峰会的最后一站——GTC China大会如约而至,又到了NVIDIA年终晒中国朋友圈的时候了。

受疫情影响,数万名与会者在线上参与此次技术盛会。与以往不同的是,整场活动更加强调技术研究和落地进展,并没有释放出新的产品。

这次打头阵的,不再是今年前几场GTC大会中在厨房砧板前发表演讲的NVIDIA首席执行官黄仁勋,而换成了NVIDIA首席科学家Bill Dally。

AI从业必看!英伟达GTC China大会最新干货▲NVIDIA首席科学家Bill Dally

这位著名的计算机科学家在1小时的主题演讲中,介绍了NVIDIA各类AI研究的最新进展,并分享了其研究实验室正在进行的关于AI推理、硅光子学及GPU集群加速的三项最新研究。他相信,不仅图形的未来是AI,几乎所有东西的未来都是AI。

在Bill Dally主题演讲后,来自NVIDIA的5位资深专家分别介绍了在AI、数据科学和医疗健康领域的多项突破性技术如何在中国的具体应用。

AI从业必看!英伟达GTC China大会最新干货

对于颇受关注的NVIDIA收购Arm一事,NVIDIA全球业务运营执行副总裁Jay Puri回应道,Arm是一家了不起的公司,CPU每年销量约220亿个、开创了IP许可模式、产品性能非常高,其成功集中在移动端和嵌入式领域,但想要涉足云数据中心和PC领域还很棘手,x86占据完全的主导地位。

而NVIDIA在数据科学和人工智能领域有强大的生态,一旦Arm成为NVIDIA的一部分,NVIDIA将着重促进Arm在数据中心、PC和云计算领域取得成功。

针对一些公司担心Arm授权被限制的问题,Jay Puri说,人们对出口管制法的运作方式存在些许误解,无论Arm是归属软银还是NVIDIA,所有关键技术都在技术诞生地英国剑桥研发,NVIDIA已承诺收购完成后,英国剑桥还将是未来Arm技术的研发中心。

此外,面向AI和数据科学领域创企的孵化项目NVIDIA初创加速计划(NVIDIA Inception)邀请了12家中国创企出席此次大会,展示他们如何基于NVIDIA技术实现不同领域的创新。

一、Bill DallyNVIDIAAI推理、硅光子学及GPU集群加速的最新研究进展

在系统介绍NVIDIA的软硬件布局及先进技术后,NVIDIA首席科学家Bill Dally以三个项目为例讲述了自己带领的200人研究团队如何成功实现“黄氏定律(Huang’s Law)”。这则以黄仁勋名字命名的定律,预测GPU将推动AI性能逐年翻倍。

AI从业必看!英伟达GTC China大会最新干货

过去八年,NVIDIA将单芯片推理性能提高了317倍。“如果我们真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”Dally说道。

Dally曾负责NVIDIA在AI、光线追踪和高速互连领域的相关研究。他着重分享了三项新的研究方向。

1、超高能效加速器MAGNet

推理是一个复杂的问题,不止涉及计算。NVIDIA MAGNet工具生成的AI推理加速器在模拟测试中,推理能力可达每瓦100 teraops,比目前的商用芯片高出一个数量级。

该工具采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输,从而节约能耗。这一研究原型以模组化实现,因此能够灵活扩展。

AI从业必看!英伟达GTC China大会最新干货

2、比电气链路更快速的光链路

NVIDIA研究团队也在研究用更快速的光链路取代现有系统内的电气链路。该团队正与哥伦比亚大学的研究人员密切合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号。

电信号因自身限制,传播距离只有1/3米,而光信号的传播距离有20-100米,只需一个单条NVLink便可连接至更大规模的系统。

这种名为“密集波分复用”的光学技术, 有望在仅1毫米大小的芯片上实现Tb/s级数据的传输,是如今互连密度的10倍以上。

除了更大的吞吐量,光链路也有助于打造更为密集型的系统。Dally举例展示了一个未来借助光链路传输、可搭载160多个GPU的NVIDIA DGX系统模型。

AI从业必看!英伟达GTC China大会最新干货

3、全新编程系统原型Legate

软件方面,为了简化编程步骤,NVIDIA研究人员开发了全新编程系统原型Legate。开发者借助Legate,即可在任何规模的系统上,运行针对单一GPU编写的程序,既适用于Jetson Nano、单卡A100,也适用于搭载数千个GPU的巨型超算。

Legate将一种新的编程速记融入了加速软件库和高级运行时环境Legion,目前它正在美国国家实验室接受测试。

AI从业必看!英伟达GTC China大会最新干货

Dally也提到,Legate无法针对大量GPU进行理想的并行处理,这也是他们要努力解决的问题。

除了上述三项研究外,Dally还在演讲中谈到NVIDIA针对医疗健康、实时光线追踪、无人驾驶汽车、机器人等众多行业打造的平台,并首次公开展示了NVIDIA对话式AI框架Jarvis与GauGAN的组合。

GauGAN利用生成式对抗网络,只需简略构图,就能自动填充画面细节,创建漂亮的风景图。在演示中,用户可通过语音指令,即时生成像照片一样逼真的画作。

AI从业必看!英伟达GTC China大会最新干货

此外,Dally还牵头开展了一项合作,构建了NVLink和NVSwitch最初的原型。NVLink和 NVSwitch如今用于全球最大型的超级计算机中,实现了其内部GPU的互连。

最后,Dally总结道,NVIDIA正做着许多激动人心的事,相信未来将其中一些构思变为现实时,一定会振奋人心,届时,NVIDIA将构建更强大的计算设备,将其运用到一系列更广泛的问题上,从而改善人们的生活。

二、NVIDIA A100拿下多家中国云服务商和系统集成商

在随后的高峰论坛上,NVIDIA 亚太区战略运营与合作伙伴副总裁 Ashok Pandey宣布,多家中国顶级云服务提供商及系统制造商已采用NVIDIA A100 Tensor Core GPU和NVIDIA技术,用于提速各类AI应用。

迄今为止,阿里云、百度智能云、滴滴云、腾讯云等中国云服务提供商均推出或即将推出搭载了NVIDIA A100的多款云服务及GPU实例。

在中国,阿里巴巴已部署EFLOPS,目前NVIDIA正与阿里合作将EFLOPS升级至A100。在线性推理方面,NVIDIA GPU已经逐渐进入CSP客户的核心业务,如推荐、广告、搜索、直播、视频等等。

此外,最新发布的NVIDIA A100 PCIe版本以及NVIDIA A100 80GB GPU已被新华三、浪潮、联想、宁畅等中国领先系统制造商采用。

NVIDIA A100 GPU配备了具有更高精度的第三代Tensor Core核心,性能较上一代产品有显著提升,可提供600GB/每秒GPU间连接传输速率的第三代NVIDIA VLink、NVIDIA NVSwitch、PCIe Gen4与NVIDIA Magnum IO软件SDK的组合,实现成千上万个GPU集群的高效扩展。

这些技术得到了来自于NGC容器注册中NVIDIA市场领先生态系统的支持。

三、支持直播购物,开创在线零售新纪录

今年国内“双十一”的线上直播打破销售记录,而在“直播+”大趋势下的领军企业们已采用NVIDIA技术来为其业务提供动力。

比如,阿里巴巴旗下淘宝使用NVIDIA GPU计算平台,为直播和基于AI的推荐系统提供加速;快手针对低分辨率短视频,利用GPU做超分辨率处理,提高视频分辨率到720p或1080p。

再比如,Bigo Live使用GPU提升视频内容创作和内容理解能力;虎牙通过开发AI数字人业务,为内容创建者创造独特的用户体验,其中GPU在AI和渲染技术方面发挥了关键作用。

NVIDIA的GPU平台可加速和增强直播所需的视频、图形和AI,凭借全新NVIDIA Ampere架构、完善的视频编解码器、RT Core核心、Tensor Core核心、统一的CUDA架构以及大量SDK和软件工具,为直播各环节提供全面支持。NVIDIA SDK还可以加速视频分析、图像处理、语音处理和其他服务等工作负载的处理。

面向深度学习,NVIDIA TensorRT提供了一个推理编译器,可最大限度地减少延迟并提升吞吐量,由此为百万用户实时提供AI特效。NVIDIA Triton推理服务器可帮助客户在云端、本地数据中心或边缘部署由AI驱动的高性能应用程序,简化推理部署过程。

AI从业必看!英伟达GTC China大会最新干货▲NVIDIA Triton推理服务器

此外,NVIDIA针对各种内容创作、质量提升和新兴AI用例提供了大量工具。比如适用于推荐系统的NVIDIA Merlin框架支持GPU加速的ETL (提取、转换、加载)、训练和推理,可帮助各公司大规模构建更快的推荐系统。

面向虚拟现实(VR)/增强现实(AR),基于NVIDIA RTX构建的NVIDIA CloudXR可通过5G和Wi-Fi网络,增强VR/AR体验。

四、助力京东物流打造全球首座智能配送城

2017年,JDL京东物流就与NVIDIA进行合作,利用基于NVIDIA Jetson平台驱动的智能机器将AI引入物流与配送领域。

如今JDL京东物流和NVIDIA将共同致力于把江苏常熟打造成全球首座“智能配送城”,以解放快递员双手、缓解快递员短缺的情况,并有助于降低人力成本。

AI从业必看!英伟达GTC China大会最新干货

同时,为了进一步减轻快递员的劳动强度,JDL京东物流还推出了“智能快递车领养计划”,即在智能配送城所在区域里,京东快递员通过申请可“领养”一定数量的智能快递车配合自己的工作,这有效提升了快递员的工作效率。

通过搭载NVIDIA Jetson AGX Xavier,并配备高分辨率摄像头以及激光雷达,JDL京东物流智能快递车可实时识别行人、车辆和交通信号灯等物体,并根据所处环境规划驾驶路线,确保交通安全。

NVIDIA Jetson AGX Xavier可提供32TOPS的AI性能,该模块尺寸为100x87mm,仅为大型工作站的十分之一,却提供了与大型工作站相当的优越性能。因尺寸小巧,该模块十分适合搭载于配送和物流机器人、工厂系统和大型工业UAV等自主机器。

AI从业必看!英伟达GTC China大会最新干货▲NVIDIA Jetson AGX Xavier

五、12家初创企业展示先进技术

随后,NVIDIA 企业市场兼开发者计划全球副总裁 Greg Estes谈及如何帮助初创公司。

英伟达初创企业展示由英伟达初创加速计划(NVIDIA INCEPTION PROGRAM)主导举办,旨在通过AI和数据科学的发展培养颠覆行业格局的优秀AI初创公司。

英伟达初创加速计划为这些初创企业提供了上市支持、专业知识、技术资源、营销资源和通过NVIDIA深度学习学院参加培训的机会,以及从NVIDIA全球分销商网络获得硬件的优惠价格。

今年有12家初创企业从报名英伟达初创企业展示的100余家企业中脱颖而出。

在会话AI领域,深思维借助NVIDIA Jetson环境下的CUDA能力,占用极少空间实现智能交互,且语音合成和语音识别仍能保证毫秒级响应;深声科技基于NVIDIA TensorRT平台和NVIDIA V100 Tensor Core GPU等产品,自主研发行业领先的高质量中英文语音合成、声音定制、声音克隆等语音AI技术。

在智慧医疗领域,慧维智能使用NVIDIA V100 Tensor Core GPU和TITAN RTX作为训练环境,并借助配置NVIDIA Jetson Xavier的边缘计算平台进行推理交付,加速其在內窥镜AI和眼科AI等方向的落地。

在智慧零售领域,云拿科技借助NVIDIA高性能GPU以及TensorRT技术,为便利店企业级客户提供领先的数字化和智能化一站式技术解决方案。

在消费者互联网/行业应用领域,大地量子借助NVIDIA CUDA平台,实现地物识别AI算法的训练及生产平台,并在其自主创新的通用分类框架冰果汁Ice-juice中应用NVIDIA RTX 5000 + cuDNN加速库,大幅提升数据处理效率;粒界科技将NVIDIA RTX技术用于直接的光阴影、环境光遮挡、全局照明、反射与折射等,在相同渲染时间内保证数据量,同时提高渲染效率,为内容创作者提供更加便捷的特效制作方式。

在深度学习应用/加速数据科学领域,星云Clustar借助NVIDIA V100 Tensor Core GPU和DGX工作站,大幅提升模型预测精确度以及解决方案处理性能,赋能传统行业AI战略升级,实现低成本、高效率的业务场景转型;闪马智能将NVIDIA T4、P4 Tensor Core GPU服务器用于分布式训练、产品开发、现场测试以及项目交付,极大提高机动车违法识别准确率,实现1天内全市极速部署,无需花费数月改造前端设备。

在自主机器/IOT/工业制造领域,复亚智能借助NVIDIA RTX 、Jetson TX2、DeepStream等,加快其在交通巡逻和电网巡检两个领域中针对无人机产品的AI图像处理速度,且提升了分析效率;图为科技基于 NVIDIA Jetson (边缘计算)整套解决方案研发智能小车、图为智盒、机器人方案等一系列产品,致力于通过AI赋能商业和个人。

在自动驾驶汽车领域,踏歌智行借助NVIDIA Jetson TX2i及NVIDIA Jetson AGX Xavier计算平台,妥善解决矿区工作中由高粉尘、道路边界模糊等工况环境导致的感知痛点问题;宏景智驾在其L3+高级别自动化辅助驾驶系统中采用NVIDIA Xavier GPU,加速了探索智能驾驶的新路径。

六、NVIDIA和腾讯云展示云端串流XR体验,私测版已上线

在GTC China大会期间,NVIDIA宣布,腾讯云展示了CloudXR以串流方式传输一个高层办公大楼的沉浸体验。

NVIDIA CloudXR平台借助腾讯云稳定、高效的云GPU计算能力,将任意终端设备(包括头戴显示器HMD和连接Windows和安卓设备)转变为可显示专业级质量图像的高清XR显示器。

CloudXR平台包括NVIDIA CloudXR软件开发套件NVIDIA Quadro虚拟工作站软件和NVIDIA AI  SDK,可提供照片级逼真的图像并具有多功能XR耳机的移动便捷性。

来自制造、建筑、媒体娱乐和医疗等行业的独立软件供应商正在使用CloudXR平台,并通过越来越多的主流边缘和云服务供应商访问该平台。

用户无需部署工作站或外置VR追踪系统,即可在云端获得高清串流体验。专业人员借助CloudXR可在任意地点轻松设置、扩展和访问沉浸式体验。

此外,CloudXR的核心功能就是管理感知延迟,为提供超低延迟的XR体验,腾讯云正在向用户开放他们的区域数据中心。

NVIDIA抢先体验合作伙伴光辉城市已在腾讯云GPU云计算实例上部署了CloudXR,向全国各地的XR用户提供高质量的VR和AR体验。

AI从业必看!英伟达GTC China大会最新干货

光辉城市旗下的Mars智能视觉设计平台软件为1000多家知名设计机构和200所建筑景观大学提供软件云服务。

据悉,腾讯Tencent Marketplace上全面提供CloudXR,同时用户可通过私测版程序获取腾讯上的CloudXR。

七、软件定义、硬件加速的可编程InfiniBand NDR网络

此前在今年全球数字超算大会(SC20大会)上,NVIDIA推出NVIDIA Mellanox 400G InfiniBand产品,这是业界第一款400Gb/s网速的端到端网络解决方案,将计算、可编程性和软件定义三种技术融于一体,能为AI、存储、高性能计算及其他对网络要求苛刻的应用的性能提升提供基础。

NVIDIA Mellanox InfiniBand NDR产品是第7代InfiniBand产品,利用100Gb/s的PAM4 Serdes技术, 实现了400Gb/s的单端口传输带宽, 是上一代产品的两倍, 同时通过添加更多、更强大的加速引擎,实现了更强大的计算和通信能力。

AI从业必看!英伟达GTC China大会最新干货▲NVIDIA Mellanox NDR 400G InfiniBand产品系列

NDR InfiniBand技术的第一个特征是“Speed Of Light”,通过加倍带宽、更快包处理能力,进一步提升基于RDMA、GPU Direct RDMA和GPU Direct Storage等先进通信技术的应用性能。

InfiniBand网络具有硬件加速、软件可编程等特征,不仅有助于优化通信性能和效率,还允许用户自定义规则对于数据路径进行操作,或是对于数据直接在网络中进行预处理而无需送到CPU做预处理。

用户还可以对于数据的通信特征进行提取、然后利用AI技术对其进行训练,得到不同应用数据的通用通信特征,如果发现有异常通信信息,可以向管理员主动发出预警。

AI从业必看!英伟达GTC China大会最新干货 ▲NVIDIA Mellanox NDR 400G InfiniBand亮点

Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等服务器厂商,以及DDN、IBM Storage等存储厂商等,均已开始研发其新一代产品,实现对于NDR InfiniBand的支持。微软Azure公有云、美国Los Alamos国家实验室、欧洲Jülich超算中心等已表示期待尽快将NDR InfiniBand应用到他们的业务中去。

八、NVIDIA BlueField DPU加速UCloud裸金属物理云产品

中国公有云服务商UCloud最大的挑战来自于如何为大量租户提供高吞吐、低延迟的物理网络和虚拟化网络。

以前基于网关的裸金属物理云解决方案存在过于昂贵,部署不够灵活,不支持计算、存储分离等限制。从2018年起,UCloud开始探索基于NVIDIA BlueField DPU的高性能的裸金属物理云方案,并在今年成功上线裸金属物理云1.0,增加了云存储功能的裸金属物理云2.0产品也已近期上线,相对于以前基于网关的裸金属物理云解决方案降低了34.4%的成本。

AI从业必看!英伟达GTC China大会最新干货▲NVIDIA BlueField DPU

今年上半年,UCloud基于NVIDIA BlueField DPU研发推出的裸金属物理云1.0产品,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中,满足了物理云客户高带宽、低延时的网络需求,并使用NVIDIA ASAP技术,将OpenvSwitch Kernel硬件卸载到DPU,实现了物理云客户无缝接入NVGRE Overlay虚拟网络,UCloud 也成为首家应用此技术的公有云厂商。

UCloud进一步于下半年研发并推出了裸金属物理云2.0产品,使用NVIDIA BlueField DPU提供的NVMe SNAP功能,将UCloud的云存储产品RSSD呈现为本地的NVMe系统盘和数据盘,为物理云客户提供了更灵活易用的云盘存储服务,并且,UCloud的RSSD云盘使用BlueField DPU成熟的RDMA能力,性能也达到了非常高的水平,真正实现了灵活性与性能的兼顾。

结语:用GPU加速改变行业应用

每场GTC大会上,来自NVIDIA的各业务负责人及技术专家会带来干货满满的演讲和互动,分享关于于AI、深度学习、数据科学、图形、边缘计算、医疗、自动驾驶、自主机器等众多主题的最新见解,帮助开发者利用GPU计算解决重要挑战、加速行业创新。

在今年5月释放基于全新NVIDIA Ampere架构的一系列加速计算硬件产品大招后,本场GTC中国站更多聚焦于如何通过NVIDIA技术推动中国产业创新。今天是GTC China 2020开幕的第一天,在接下来的五天内,GTC China还将带来200多场来自不同市场领域的演讲,涉及更多技术解读和行业应用的干货分享。