准确率提高9.5%!亚马逊Alexa推出新语音识别系统

智东西(公众号:zhidxcom)
编 | 刘阳

导语:亚马逊Alexa部门的研究人员开发了2-mic语音识别系统,相较于传统的7-mic系统,该方法将语音识别准确率提高了9.5%。

智东西4月2日消息,在语音识别方面,两个麦克风比一个麦克风更好,这是一个公认的事实。直观的说,这是有一定道理的:声波到达多个麦克风的时间延迟不同,这可以用来提高来自某个方向的信号的强度,同时减少来自其他方向信号的干扰。传统上,语音增强(将语音从噪声中分离出来)的问题一直是独立于语音识别来解决的,但是相关实验结果表明,这种方法所取得的效果并不太好。最近,亚马逊研究人员对此提出了自己的解决办法。

亚马逊Alexa部门的研究人员认为,他们已经开发出一种新的声学建模框架,通过统一语音增强和语音识别来提高性能。在实验中,当应用2-mic系统时,他们声称他们的模型比使用传统的7-mic系统提高了9.5%的语音识别准确率。

他们在两篇论文中描述了自己的工作成果,“频域多通道声学模型用于远程语音识别”和“多几何空间声学模型用于远程语音识别”,这两篇论文将于下月在布莱顿举行的第44届ICASSP国际声学、语音与信号处理会议上发表。

研究人员在论文中描述了一种多麦克风系统方法,它取代了独立的手工编码算法,这些算法确定波束形成器(在传感器输出上工作的空间滤波器,以增强波的幅度)的方向,并用单个神经网络识别语音信号。亚马逊目前的Echo音箱可以动态调整波束形成器,以适应新的声学环境。

准确率提高9.5%!亚马逊Alexa推出新语音识别系统

Alexa语音组的语音科学家Kenichi Kumatani在一篇博客文章中解释道:“传统技术旨在将单个声束指向任意方向,但这是一种计算密集型的方法。” “有了Echo智能音箱,我们可以将多个声束指向不同的方向,并识别出产生最清晰语音信号的那一个……这就是为什么即使电视在几码外发出刺耳的声音,Alexa依然可以理解你对要求播报天气预报的指令。”

单个神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器,或者以多个不规则频带的信号能量快照的形式传递给特征提取器。在传统的模型中,它们对背景噪声进行标准化估算,提取器的输出被传递给一个人工智能系统,该系统计算出不同“电话”(即语音信息的短单位)对应的特征的概率。

论文的作者表示,如果模型的每个组件(例如,特征提取器和波束形成器优化器)分别初始化,性能就会提高。他们同时补充到,不同的训练数据使模型能够跨设备处理各种类型和配置的麦克风。Kumatani说:“这意味着新设备的ASR(自动语音识别技术)系统,或者使用范围不太广泛的设备,都可以从更广泛使用的设备产生的交互数据中受益。”

原文来自:VentureBeat