欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智东西公开课
小鹏汽车提出判别性多模态语音识别
2020-05-14
机器之心
16
5月14日消息,小鹏汽车在论文《判别性多模态语音识别, Discriminative Multi-modality SR》提出了一个两阶段语音识别模型。在第一阶段,通过唇动的视觉信息将目标语音从背景噪声中分离出来,使模型能够清晰地理解。第二阶段,音频模态再次结合视觉模态,通过MSR子网络更好地理解语音,进一步提高识别率。据介绍,通过在LRS3-TED和LRW数据集上进行了大量的实验。该两阶段模型 (音频增强多模态语音识别,AE-MSR) 以显著的优势达到了最先进的性能,证明了AE-MSR的必要性和有效性。
小鹏