智东西(公众号:zhidxcom)
文 | Lina

智东西12月2日消息,上周,百度推出了一款新的语音识别模型——全名叫“基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型”,并推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板,以及基于智能家居、智能车载、智能IoT设备这三大场景的行业解决方案(百度推新款语音识别模型,准确率飙升30%,还有三款AI语音芯片模组

对话百度贾磊/喻友平:深度学习正往跨领域融合高速发展

▲百度AI技术生态部总经理喻友平、百度语音首席架构师贾磊

▲百度AI技术生态部总经理喻友平、百度语音首席架构师贾磊

发布会当天,智东西与少数媒体一同对百度语音首席架构师贾磊、百度AI技术生态部总经理喻友平进行了专访。贾磊告诉智东西,深度学习的下一步方向就是这种跨领域融合的技术,目前深度学习的端到端、跨学科整合方面正在快速发展,不断对已有学科进行着颠覆。

一、深度学习的下一步:跨领域融合

传统远场语音交互技术,首先要对声音进行数字信号处理(信号增强、波束生成等),接着再对其进行语音识别,涉及数字信号处理和语音识别这两大学科。

而百度新推出的基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型则打破了上述传统流程,以一套深度学习模型代替整个流程。系统直接输入多路麦克风信号,输出目标语音文字,不需要任何声学先验知识。

在采访中,贾磊告诉智东西,百度这款新模型在语音识别过程中就引入了语义理解技术,对声学与语言进行一体化的建模。

针对当前业内存在的“深度学习是否遇到技术创新平台期问题?”,贾磊认为当前深度学习还在快速发展当中,深度学习的下一步方向就是这种跨领域融合的技术,目前深度学习的端到端、跨学科整合方面正在快速发展。

二、AI芯片核心理念:软件驱动芯片设计

在发布会现场,百度AI技术生态部总经理喻友平还推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板。

对话百度贾磊/喻友平:深度学习正往跨领域融合高速发展

百度的这款新模型搭配百度鸿鹄语音芯片,能够将语音识别准确率提高30%以上。而即便设备没有搭载百度专用的鸿鹄语音芯片,而是搭载其他传统ARM芯片,这套新模型也能让远场语音识别、首次唤醒准确率大幅提升。

贾磊告诉智东西,百度作为互联网巨头,进军AI芯片的核心理念是以软件驱动芯片设计。市面上现有的传统芯片并不适合专用的低功耗AI语音计算。

举个例子,现在支持语音唤醒与识别的Arm架构芯片运行功率普遍在1W以上,难以满足家电产品的超低功耗需求。而目前百度鸿鹄芯片的待机功率在100mW以下,满负荷运载功率在200mW以下,是极少数功耗能够符合国家3C认证标准的芯片,可以搭载在电视等家电产品中。

三、AI开放平台已实现规模营收,“增速很快”

喻友平说,百度大脑开放平台目前是国内服务规模最大的AI开放平台,有228项开放的技术能力,同时也服务着全国最大群里的AI开发者——超过150万人,其中90%!95%以上是企业用户。

喻友平告诉智东西,当前,百度大脑通过平台化的方式为企业提供AI技术与解决方案,目前已经实现了规模化的营收,并且营收增速非常快。

当前,百度大脑所开放的AI技术在公司集团内部拥有着广泛的应用场景,比如百度地图、百度输入法等等。喻友平表示,内部有广泛应用使得百度能够对AI技术进行打磨与积累,在这个过程中把越来越多的AI应用场景打造得更加符合外部企业的需求,开放给各类厂商。