小鹏汽车语音负责人:语音是车内最佳交互方式

车东西(公众号:chedongxi)
文|Juice

目前,几乎每家车企都会给旗下的新车装上语音助手,车主可以通过语音助手来完成一些开关车窗、开关空调、搜索音乐等基本功能。

可以说,语音助手已经成为了目前车上主要的交互方式之一了,但各家的语音助手之间的智能程度又有比较大的差别。

此前,小鹏P7上市的时候,小鹏官方展示了一段语音助手的视频,在视频中,车主可以随意打断语音助手,并下达新的指令,还可以利用语音助手进行座椅调整等车身控制,这也给了消费者更多的想象空间。

那么车载语音助手是如何开发的呢?语音助手上车需要做哪些独特的设计呢?语音助手在没网的时候如何工作?带着这些问题,车东西采访了小鹏汽车语音方面的负责人赵恒艺,对车载语音助手有了更多的了解。

一、语音功能和思必驰合作开发 语音识别率达92%

对于小鹏的语音团队外界了解并不多,在采访中车东西得知,小鹏的车载语音团队目前有50余位研究员,负责人赵恒艺来自思必驰,其他的研究员也都是来自微软阿里三星百度等科技公司,目前在广州和北京分别展开研究。

除了团队情况,赵恒艺还向车东西介绍了小鹏的语音助手开发情况。

据赵恒艺的介绍,小鹏的语音技术是和思必驰合作开发的,小鹏首先搭建起框架,语音识别过程中具体的语音唤醒、语音识别采用了思必驰的技术,一些基本功能如打电话、查天气和语音合成等也是采用了思必驰的技术。而更为核心的语义解析、识别增强、语义抗噪、语义打断、自然语言处理等功能则是小鹏自主研发。

在了解了小鹏的语音技术团队和开发情况后,赵恒艺向车东西介绍了语音技术的原理,赵恒艺表示,语音技术分为几个模块,首先是语音唤醒的功能,说一个唤醒词,通过本地的算法就可以激活车辆的语音助手,激活之后会有一个本地和云端混合语音识别的模块,将车主的指令压缩上传到云端,通过解码器把语音转成文字。

小鹏汽车语音负责人:语音是车内最佳交互方式

▲小鹏G3车机

语音转换成文字之后再通过一个识别增强的模块,进行自然语言处理,对识别的结果进行校验,校验无误后再进行语义解析,识别出指令的真实意思,之后进行语义分发,将指令发放到车辆的控制中心,最终完成语音对车辆的控制。

车东西在实际测试中发现 P7还支持方言识别,具体怎么做到的呢?

赵恒艺表示对方言的识别基本上基于带口音普通话的识别,因为目前小鹏的车在全国各地都有,很多口音的人都会对语音助手进行使用,为了更方便用户使用,小鹏会定期收集一些语料,然后给供应商来完善语音系统。

对于带口音的普通话的识别率问题,赵恒艺也做了说明,他认为对于方言的识别主要是一个概率问题,有一些语音可以识别,但有一些可能就无法识别了,目前小鹏的语音识别正确率达到了92%,大部分语音都能准确识别。

二、本地计算和云端计算并行 设计初就适配车机和降噪

车企如果想要实现语音助手对车辆的控制,就需要很强的算力做支撑,而小鹏汽车的语音可以控制车上的大部分功能,小鹏汽车是如何解决算力的问题呢?

赵恒艺对此表示,小鹏的语音助手的处理和决策在本地和云端两部分进行,唤醒、车控这些基本的功能都会在本地进行,更多需要计算能力的功能则会在云端进行。

在没有联网的情况下,会进行网络重连,一旦重连成功,会首先恢复云端计算。如果实在无法恢复网络,导航和音乐等需要借助于云端的功能就无法实现,但对车辆的控制是可以实现。

在日常的使用中,车东西发现,当车辆的空调打开之后,有些车辆的语音助手就会受到影响,识别率也会下降,车辆的降噪功能的重要性就凸显出来了。

赵恒艺表示,有些车的麦克风摆放的位置可能会比较接近空调的出风口,这就导致了语音识别会受到影响,小鹏汽车的麦克风则是摆放到了车辆的顶棚,采用了“L”型的三个麦克风组成麦克风的阵列。

此外,风噪、胎噪、车外噪声、车内的噪音等都会对语音系统产生一定的影响,这些需要在设计的时候就做好调整。

在设计的时候,除了要提前考虑降噪的问题,还需要提前考虑好车机系统和语音系统的兼容性问题,赵恒艺也向车东西介绍了小鹏在这方面的做法。

赵恒艺认为小鹏语音助手与其他车企的不同点在于,其他车企只是将语音助手作为一个基本的功能,而小鹏则认为语音助手是未来车内最重要的交互方式。

赵恒艺表示小鹏G3上所有的功能都可以用语音控制,比如车窗除雾、后视镜、座椅车窗、音乐导航等,对自研应用有一个全新的定义,导航大家都可以支持,但是支持到什么程度不同,小鹏都可以做到用语音控制页面上的所有选项。

小鹏汽车语音负责人:语音是车内最佳交互方式

▲小鹏G3

要想让语音系统更好的实现对车辆的控制,小鹏汽车在设计阶段就需要将车机系统和语音系统提前做好适配。

除了对车辆功能的全方位控制,车主还可以随时打断与小鹏语音助手的交谈并下发新的指令,但这项功能在很多车上却无法实现。

赵恒艺表示打断分为两个部分,一个是声学打断,只要有声音产生就会打断现有的语音状态,但实际上,你可能咳嗽一声或跟车内其他人交谈就会打断语音。

小鹏在这方面特地做了一个语义打断的设置,车载AI能够识别谈话的内容,能够区分出来是在下达语音指令还是在和其他人交流,目前其他车企在这方面还没有这样的技术。

三、9月份语音系统会升级 可控制90%功能

小鹏汽车对于语音系统的研究并未止步,赵恒艺也介绍了小鹏汽车未来的发展规划。

他表示短期内小鹏的语音系统将会在9月份会进行一次OTA升级,将会推出全场景的语音系统,这套系统有三个部分,一是全场景对话,一次唤醒之后持续对话,可以一直和语音系统对话,同时驾驶员和其他乘客聊天也不会干扰到语音系统。

二是所见即可说,将可以通过语音助手控制90%的功能,几乎所有可以说的功能都可以用语音控制。

三是私人订制,车窗座椅和音乐的播放等功能的调整都可以自定义,在自定义之后,通过一句话就可以实现。

至于未来的规划,赵恒艺认为这主要取决于两个部分,一个是未来的汽车将会是什么样子的?二是AI的发展将会是怎样的?

赵恒艺认为,未来的语音助手需要采用多种传感器融合的方案,打造更加场景化的交互能力。此外,还需要对语音助手持续迭代,提升学习能力并保持不断进化。总的来看,未来的语音助手应该是全自动更智能的AI,除了方向盘、电门和刹车都能控制住。

结语:小鹏汽车坚信语音是最好的车内交互方式

在小鹏P7的发布会上,小鹏汽车CEO何小鹏曾表示,他认为未来车内最好的交互方式就是语音交互,正是这个原因,小鹏在语音助手方面做了很多的研究。

通过语音助手控制车辆的部分功能,车主只需要说说话就可以达成目标,能够减少驾驶员在驾驶过程中的分神现象,能显著提升车辆的安全性。

目前,小鹏G3已经基本上可以控制车内所有的功能了,小鹏P7在9月份进行升级之后也将能够控制90%的功能,而其他车企的语音助手则只能控制车上的部分功能。