“软硬齐上”！Nvidia新模型加硬件有望大幅压缩交互延迟

智东西（公众号：zhidxcom）
编 | 年年

导语：Nvidia新语言模型使用了83亿个参数，比Bert大24倍，将显著提高自然语言处理水平。

智东西8月19日消息，据外媒报道，Nvidia上周宣布，它已经训练出了世界上最大的语言模型MegatronLM，Nvidia还宣布其打破了BERT模型的最快训练记录，在53分钟内成功训练了BERT，并将BERT推理时间降至了2.2毫秒。

BERT推理时间降至了2.2毫秒什么概念呢？目前许多实时应用设置的处理阈值都是10毫秒，2.2毫秒基本就意味着实时反映、实时交互。

这项研究成果将提高自然语言处理的能力和水平，在开源给开发人员后，结合Nvidia自身GPU等强大的硬件将大幅度提高语义理解准确率和交互速度，这对于实现人工智能实时对话将有很大的推动作用。

一、53分钟训练BERT

在打破了所有与计算机视觉模型训练相关的记录后，Nvidia现在宣称其人工智能平台能够在53分钟内训练基于最大数据集之一的自然语言神经网络模型BERT。它还表示BERT的推理时间仅为2.2毫秒，这意味着参与用户对话的模型的响应速度极快。

“软硬齐上”！Nvidia新模型加硬件有望大幅压缩交互延迟

▲Siri、Alexa、Cortana、Google Assistant

在计算机视觉之后，自然语言处理是人工智能最重要的应用之一。从Siri到Alexa，从Cortana到Google Assistant，所有会话式用户体验工具都由人工智能提供支持。

人工智能研究的新进步将语义理解和语音交互赋能给了开发人员，数据科学家和开发人员现在可以构建定制的人工智能模型，其工作原理与Alexa和Siri完全相同。

不同的是现在可以从医疗保健、法律等垂直行业角度进行专业化的高度定制，这使医生和律师能够与理解术语和对话上下文的AI代理进行交互，这种新的用户体验将成为未来行业应用的一部分。

尽管聊天机器人和会话代理AI已经存在一段时间，但它们还并没有真正接近人类的理解水平，随着人工智能软硬件平台的进步，这种状况将发生变化。

去年，谷歌开源了一种新技术，用于预训练自然语言处理（NLP）模型，称为BERT。谷歌的这一技术通过授权开发人员培训他们自己最先进的问答系统和其他基于自然语言的模型，彻底改变了会话领域用户体验。

谷歌展示了BERT如何从斯坦福问答数据集（SQUAD）中产生准确的结果，这是一个阅读理解数据集，基于群众工作者在一组维基百科文章中提出的问题。

由于其激进的方法，BERT是NLP研究界的改变者。与通过从左到右或从右到左阅读句子来推导上下文的其他模型不同，BERT可以一次读取整个句子以获得最准确的上下文，这种方法大大减少了生成高度语境化词汇表示所花费的时间。

“软硬齐上”！Nvidia新模型加硬件有望大幅压缩交互延迟

▲BioBERT专为生物医学文本挖掘任务而设计

BERT是一些最佳的会话体验的基础，包括BioBERT，一种生物医学领域的语言表示模型，专为生物医学文本挖掘任务而设计。Microsoft增强了BERT以创建多任务深度神经网络（MT-DNN）。MT-DNN根据通用语言理解评估（GLUE）基准，成功为9个NLP任务中的7个设置了新的高性能标准。

根据NVIDIA的说法，它的AI平台是第一个能够在不到一个小时的时间内训练BERT并在2毫秒内完成AI推理的平台。

这种突破性的性能水平使开发人员能够将最先进的语言理解用于他们可以向全球数亿消费者提供的大规模应用程序。

“软硬齐上”！Nvidia新模型加硬件有望大幅压缩交互延迟

▲微软的Azure和Bing

微软已经采用了Nvidia的平台来提供一些基于语言的人工智能服务，为Azure和Bing提供支持。

NVIDIA训练了世界上最大的基于Transformers的语言模型，这个模型拥有83亿个参数，是BERT-Large数据集的24倍。

训练使用了92个共运行1472个NVIDIA V100 GPU的NVIDIA DGX-2H系统，最后在NVIDIA DGX SuperPOD上的训练时间从几天减少到仅53分钟。

除此之外，基于运行TensorRT的NVIDIA T4 GPU的推理时间仅需2.2毫秒，考虑到为许多实时应用设置的10毫秒处理阈值，这是非常快的。

许多加入NVIDIA Inception计划的初创公司都在使用其AI平台和BERT模型的优化版本，为其客户提供下一代用户体验。

Nvidia的新模型MegatronLM拥有83亿个参数，这对于自然语言处理方面是巨大的进步，在和自身的硬件结合之后，将大大提高语义理解准确率和语音交互速度。

这一进步最重大的意义是有望推动实时对话的实现，目前的AI对话在实现较高准确率的同时都存在一定时间的延迟，而这就很影响用户体验，如果能够缩短甚至基本消除延迟时间，那么语音交互将得到巨大的发展。