NVIDIA推全新AI预训练模型,TAO工具套件3.0公开可用

智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影

智东西6月25日报道,NVIDIA昨晚推出全新预训练模型,并宣布TAO工具套件3.0全面公开可用。

TAO工具套件在NVIDIA TAO平台指导工作流程以创建人工智能(AI)的过程中起到核心作用。新版本包括各种高精度、高性能计算机视觉(CV)和对话式AI预训练模型,以及一套强大的生产级功能,可将AI开发能力提升10倍。

此外,NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2Vid Cameo,该模型借助生成式对抗网络(GAN),只需上传一张人物图像,即能让参会者在参会期间时刻保持跟上传图像相似的仪容。

NVIDIA推全新AI预训练模型,TAO工具套件3.0公开可用

一、无需从零训练,快速启动AI模型

从对于很多企业来说,从零创建AI模型既烧钱又费时间,如果能将高精度、高性能的AI模型直接迁移到应用场景,并可以结合特定场景需求进行快速微调,则将大幅提升AI部署效率。

迁移学习做的即是将现有神经网络模型中的学习特征提取到新模型中,这降低了AI模型应用到某一具体领域的应用门槛。

NVIDIA TAO工具套件在一个简化的训练工具包中提供了迁移学习的能力,通过抽象出AI/深度学习框架的复杂性来简化训练,使得开发人员只需用一小部分数据,就能快速定制出满足自身应用需求的高质量AI模型。

NVIDIA推全新AI预训练模型,TAO工具套件3.0公开可用

借助,开发人员可以使用NVIDIA已经构建的CV和对话式AI预训练模型,不需要AI框架知识,也不需要大规模AI开发团队,就能以极少的编码将高精度的AI模型添加到业务中,而且将开发工作效率提升了10倍。

这些AI模型都是免费的,从NGC目录下载。

具体来看,TAO工具套件3.0的亮点包括:

(1)一个支持边缘实时推理的姿态估计模型,推理性能比OpenPose模型快9倍,训练期间GPU训练率可达到90%。

(2)PeopleSemSegNet,一个用于人物检测的语义分割网络。

(3)各种行业用例中的计算机视觉预训练模型,如车牌检测和识别、心率监测、情绪识别、面部特征点等。

(4)CitriNet,一个使用各种专有特定域和开源数据集进行训练的新语音识别模型。

(5)一个用于问题回答的新Megatron Uncased模型以及许多其他支持语音文本转换、命名实体识别、标点符号和文本分类的预训练模型。

(6)在用于视觉AI的NVIDIA Triton和DeepStream SDK上以及用于对话式AI的Jarvis上的开箱即用部署。

二、与数据生成和标签工具集成

TAO工具套件3.0现在还与数家提供大量多样化高质量标签数据的领先合作伙伴平台集成,使端到端AI/机器学习工作流程变得更快。

NVIDIA推全新AI预训练模型,TAO工具套件3.0公开可用

当今主流的AI神经网络训练离不开数据采集,而海量高质量数据采集,既耗时,成本又高。因此合成数据开始兴起。

不同于直接从现实世界中采集的数据,合成数据是在数字世界中通过计算机模拟或算法所生成的带有注释的信息,可以用于代替真实数据。

不过,不用担心合成数据的质量。研究表明,在训练AI模型方面,合成数据与基于实际物体、事件或人的数据一样好,由于合成数据集能自动标记并能刻意加入关键极端案例,因此有时甚至比真实数据的质量更好,而且更加节省成本。

许多银行、汽车制造商、无人机、工厂、医院、零售商、机器人和科学家都在使用合成数据,一些公司开始专门提供合成数据和数据标签服务。

例如在NVIDIA的合作伙伴中,纽约的AI.Reverie提供带有可配置型传感器的模拟环境,用户可以在该环境中采集自己的数据集;伦敦的Sky Engine提供计算机视觉应用并帮助用户设计自己的数据科学工作流程。

这些合作伙伴的生产和注释数据服务,现在可以通过与TAO工具套件无缝集成进行模型训练和优化,并使用DeepStream SDK或Jarvis部署模型,从而创建可靠的计算机视觉和对话式AI应用。

三、重塑视频会议:用GAN改变参会者仪容

除了发布TAO工具套件3.0外,NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2Vid Cameo,该模型借助生成式对抗网络(GAN),仅用一张人物2D图像即可合成逼真的AI人脸说话动态,能让参会者在会议期间时刻保持着良好的参会状态。

相关论文本周在国际AI学术顶会CVPR上发表,是NVIDIA在本次虚拟会议上发表的28篇论文之一。

参与者只需在加入视频通话前提交一张参照图像(比如穿着正装的照片),AI模型就会在开会期间捕捉参会者的实时动作,然后将其应用在之前参会者上传的参照图像上。这样即便参会者头发凌乱、穿着睡衣,在视频通话过程一直会呈现出穿着正装的形象。

此外,如果参会者往左转,该技术还能调整视角,使得参会者看起来是直接面朝摄像头的。

Vid2Vid Cameo的主要功能,包括面部重定向、动画头像和数据压缩。这些功能即将登陆NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。

该模型基于NVIDIA DGX系统开发,使用包含18万个高质量人脸说话视频的数据集进行训练。

相应网络学会了识别20个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。

这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,而不会将某参与者的大量直播视频流推送给其他人。

该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低10,从而避免抖动和延迟,提供更流畅的用户体验。

开发者已经能采用Maxine AI效果,包括智能除噪、视频升采样和人体姿态估计。

Vid2Vid Cameo很快将在NVIDIA Video Codec SDK中作为AI Face Codec推出,SDK支持免费下载,还可与NVIDIA Jarvis平台搭配用于对话式AI应用,包括转录和翻译。

结语:软件实力已成NVIDIA的关键竞争力

借助TAO工具套件,达到相同水平的模型性能,用户需要消耗的训练时间明显缩短,而且降低大规模数据采集和标注成本,减轻了训练模型的负担。这对于想要部署AI的工程或开发团队,无疑大有裨益。

NVIDIA以GPU硬件的领先实力而闻名,相比之下,它的“软”实力可能会被忽略。但显然在近些年,不断扩展与升级的庞大软件体系,已经不再是NVIDIA的幕后功臣,它开始更多地走到台前,通过与硬件的协同,加速客户的智能化升级或转型。