【嘉宾观点】“语音进化论”干货分享：未来的人机交互有更多的模式

科大讯飞云平台事业部商务总监汤熙

请谈一下第一次接触到语音交互的回忆

我2002年进入讯飞，当时讯飞的语音合成技术还是拼接，我觉得很吃惊，还有这么好玩的东西。讯飞最早把IBM的技术做了很多桌面级的产品应用，当时初步进行了语音合成、语音识别。我第一次接触的也就是在讯飞的语音识别产品。当时就觉得，我要把青春献给讯飞了。

用户对于当前正在研发技术的反馈和期望有哪些？

其实讯飞有很多的产品，包括硬件和软件的产品、和京东合作的叮咚音箱、讯飞输入法等等。

其实对于语音来说，是有一些很难的问题需要解决的。比如说语音识别的时候，根据说话人的场景、用户环境，比如说讲话背景噪音非常大的情况下，有可能识别率就不足。另外，各个不同的发言人的语速、语调，甚至有很多方言识别的话，也会对语音识别有影响。所以我们现在的一些产品，比如说输入法用户非常多，而且日活、月活都是非常高的。大家对于输入法，如果按正常的说话水平，识别率非常高，能达到95%的识别情况。

回到问题，有几种场景需要逐步来进行解决的，第一，是在远场噪音之下，如何进行识别。第二，是在一些方言识别方面，可能还没有达到非常好的识别度。另外，现在所有的对语音的交互，最重要的是知识库，语音理解的部分，更多的是行业用户希望在行业间有一些定制内容的需求，所以语音理解要不断进步。

在面向未来语音技术的推广和应用，您的公司主要做的是什么？

讯飞从1999年成立就一直在做核心技术源头的创新，我们的目标是要让各种设备、智能终端都能理解、思考。

9月，讯飞的单麦克风、双麦克风、六麦克风实现了英文识别，并囊括了所有的冠军词表。也就是说，讯飞现在在麦克风阵列，噪音环境下，这个技术已经达到了国际领先水平。但是我们在去年就把八麦用上了。

另外，讯飞在国际上的一些指标，包括在暴风雪的比赛，讯飞语音合成、语音识别、语种识别等等，都取得了很好的名次，基本上都是冠军。讯飞一直在不断的推动整个人机交互的发展和进步。
讯飞从2010年发布了语音云，到目前为止，语音云的激活用户有8个亿，日均语音交互次数达到了25亿，有18万个合作伙伴。我们用语音云建立在整个语音生态，我们和所有的合作伙伴一起去共同推动整个语音和人机交互进程的快速发展。因为在我们18万的合作伙伴中，有很多不一定是非常大的公司，有的可能是个人或者创业者，所以讯飞也在和个人、开发者进行很好的交流。

因为一项再好的技术都是需要落地的，这些合作伙伴有更多落地的想法和产品，所以讯飞通过语音云来做整个人机交互的推动。另外，我们的AIUI技术重新定义了在人机交互的标准，让大家使用起来更加方便，主要通过麦克风阵列实现远场降噪。比如现在和叮咚一问一答式的交互，我喊叮咚叮咚，它问你干什么，来一首刘德华的歌。现在是AIUI的技术，我们可以直接打断它，在播放刘德华这首歌的同时，可以跟它说，我要听张学友的《吻别》。通过这样的交互方式，也让所有智能硬件的合作伙伴更快更好的来进行人机交互，现在我们AIUI已经推出了评估版，整个产品也在逐步推向市场。还有合作伙伴一起来构建整个语音的生态，我们一直在不断的努力。

描述一个你心目中最理想的语音交互的应用场景

未来的人机交互不一定完全是语音，有更多的模式。随着现在互联网时代的到来，设备之间通过传感器的配合，可以自动实现一些定制化需求。比如智能家居，可能我不需要语音指令，只要我回到家，它通过一些传感器，就感知到你并识别你的身份，自动把你想要的一些功能实现，可能现在很多已经实现了。再比如雾霾天气，达到一定标准的时候，家里的空气净化器自动被打开；自己坐到沙发上，电视就自动打开。再加上语音技术，当其他技术还未达到你想要的效果，可以通过语音控制来完成整体的智能家居。

另外，现在机器人比较火，我走到家里，就有一台机器人出来，它通过人脸识别，或者是什么技术，叫它一声，会判定你的身份，它跟我说，“主人你回来了”，我说“太累了放首歌”，它听到我的声音之后，会播放我曾经喜欢听的一些歌曲等等。再如，是小主人回去了，说“你给我唱首歌”，孩子的歌跟我回去给我推的歌是完全不同的。

目前，很多机器人厂商会把其他人机交互的模式，包括手势识别，人脸识别等等生物识别应用进去，未来每个家庭都会拥有一台机器人，就像十年前你可能想不到，中国每个家里都有几台电脑，现在至少有一辆汽车。相信在智能家居和机器人使用场景的不断积累和扩大中，我们的人机交互技术会越来越好、越来越多。

请谈一下第一次接触到语音交互的回忆

用户对于当前正在研发技术的反馈和期望有哪些？

在面向未来语音技术的推广和应用，您的公司主要做的是什么？

描述一个你心目中最理想的语音交互的应用场景

相关推荐