对于Alexa王国来说理解人类持续对话就是圣杯

智东西（公众号:zhidxcom）
编 | 海中天

导读：从1990年代开始，George Anders就在关注亚马逊，他为美国刊物写了许多与亚马逊有关的文章。最近他出了一本书《你可以做任何事》（ You Can Do Anything）。 George Anders刊文介绍了Alexa，既谈到了Alexa的发展，也谈到了它的挑战。通过这篇文章，我们可以看到一个不同的Alexa王国。下面是文章的节选，有缩减：

2012年8月31日，4名亚马逊工程师提交一份专利申请文件，它最终变成了Alexa，这是一套AI系统，它可以处理世界上最大、最复杂的数据集：人类语音。工程师只需要11个单词、一张简单的图表就可以解释它是如何运行的。一名男用户在安静的房间说：“请播放《Let It Be》，披头士的音乐。”一台小小的桌面机器回答说：“没问题，John。”然后它开始播放指定歌曲。

自此之后，面向家庭的语音AI成为亚马逊的大业务，对于竞争对手而言，它也渐渐成为重要的战略战场。谷歌、苹果、三星、微软都投入了成千上万的研究人员和业务专家，它们都想开发容易使用的设备，让我们与设备对话。Witlingo公司开发语音App，为银行、大学、律师事务所及其它机构开发，Witlingo的CEO Ahmed Bouzid认为：“到目前为止，我们所有人必须屈从于技术，比如输入、触击、滑动。现在新用户界面却屈服于我们。”

自2014年推出以来，Alexa设备销售了几千万台。在美国语音AI设备市场，亚马逊估计占了总销量的70%，虽然竞争压力越来越大。谷歌Home也卖了几百万台，苹果与微软很快也会推出自己的产品。

最终，企业的目标是抓住3个市场机会：家庭自动化，家庭娱乐，购物。

就目前来说，亚马逊无意从制造设备的企业手中获得收入，也就是制造智能恒温器、灯泡、其它Alexa联网设备的企业。未来，我们可以想像亚马逊会与企业达成营收分成协议，或者选择其它付费方式。

在这3个市场中最小的是家庭自动化市场，每年开支超过50亿美元，去年美国的零售销售额总计约为4.9万亿美元。眼下亚马逊通过销售机器赚钱，定价介于50-230美元，最低端的Dots只要50美元，高端的Echos要230美元，上面有视频显示屏。

有些企业正在开发硬件、开发服务，这些硬件与服务兼容Alexa。例如Capital One，它向银行客户销售Alexa支付系统；多伦多Ecobee制造Alexa智能恒温器，用户只需要说几个单词就可以调高或者调低房间温度。

Ecobee CEO Stuart Lombard说：“我们的客户生活很忙碌。”现在该公司销售Alexa设备有40%的营收来自海外，Ecobee成立已经10年，Alexa设备是公司增长最快的产品线。Stuart Lombard还说：“客户必须穿过繁忙的交通车流回到家里，他们必须喂孩子，必须给孩子换尿布，还要干其它各种事。我们让他们将事情做完，不需要用到手，他们可以用手干其它事。”

当语音遇到AI

语音AI面临很大的技术挑战，因为我们说话时并不是井然有序的，我们会干扰自己，想法会动摇，我们使用单词的方式很奇怪，还会点头，发出咕哝声，我们会假设自己的话是有意义的，实际上没有。

几千名亚马逊员工正在解决这个问题，包括西雅图、Sunnyvale、加州、剑桥、马萨诸塞的研究中心。尽管如此，亚马逊还嫌不够，最近它为1100多个Alexa职位招募员工，涉及到十多个部门，当中有215个职位提供给机器学习专家。在剑桥办公室内，Alexa首席科学家罗希特·普拉萨德（Rohit Prasad）接受了媒体采访，他解释了自己的团队为何需要这么多人。

普拉萨德说：“你提问的每一个方面都让我发笑。”沉思几秒之后，普拉萨德解释说，他在语音技术方面研究了20年，在这段漫长岁月的大多数时间里，进展缓慢让他感到沮丧。但在过去5年里巨大的机会开放了。创造一个真实高效的语音AI是一项复杂的、从未被征服的任务。

在过去的岁月里，语音科学家一直想解决一件事，理解混乱表达的意义，最开始时表达有些混乱，很难搞清表达的意思，有了机器学习这样的新方法，我们用不同的策略取得进步，最开始时匹配是不完美的，机器人从不完美着手，然后通过临时猜测不断优化。关键在于消化大量的数据，从早期的错误中学习。Alexa与用户相处的时间越多，收集的数据也就越多，可以学习的数据也就越多，也就会变得越聪明。进步越大机会越大，这个过程需要大量的人力。

这就是普拉萨德的解释。

普拉萨德说：“让我举个例子。如果你问Alexa：‘Adele的第一张专辑是什么？’回答应该是‘19’。如果你说：‘播放它。’Alexa足够聪明，知道播放那张专辑。”如果你在中间加入其它一些话，如果你问Alexa这张专辑是哪年发行的，卖了多少张，会怎样呢？将问题替换“播放它”这个命令，早先的Alexa处理不了。现在技术可以跟着思考前进，至少某些时候是可以的，它知道“它”指的是“19”。

这是一个重要进步，进步归功于机器学习，之前 Alxea也被无数的交换难住，机器学习可以从失败中学习经验。系统知道用户不想听什么歌曲，知道之前的对话最早在何时谈到这首音乐。MIT口语语言系统研究团队的主管James Glass说：“人们会以何种方式要求获得一些东西，你最开始时要做出假定。然后你要收集数据，调校模型。”

Glass说，这种类型的机器学习方法得到了广泛的认可，不过要让它运行需要大量数据，远不是大学研究人员轻易就能获得的。由于Alexa的崛起，亚马逊现在可以获得大量的人机语音交互信息。2016年，Alexa引进一个庞大的数据库，里面全是歌曲歌词，有了这个数据库，当用户要求播放歌词中带‘drove my Chevy to the levee’的歌曲时，系统知道用户要的是Don McLean的歌曲《American Pie》。

普拉萨德正在推行一个新项目，这个项目的关注重点就是新方法的灵活性。具体来讲就是用户撤销最初的请求时，系统要正确识别。用户使用的“信号短语”是大不相同的。一组人说：“不，不，不。”还有一组说：“取消它。”第三组人说的话类似于“等等，实际上我想要的是……”，形式有所变化。Alexa没有必要破解每一种表达。有了大量的样本和半监督机器学习技术，系统可以为否定语音找到大量可能的标记，请求改变之后能挑选出明确的新请求。

为了让Alexa成为更好的倾听者，亚马逊AI专家首先用大量数据训练系统，让它成为更好的说话者，他们对机器合成的女性声音进行优化，让节奏更完美，这样就可以刺激用户持续使用。如果使用的是传统方法，一般会录制大量的人类语音片段，然后依赖片段合成语音。使用这种技术可以生成更自然的声音，但是无法低语、无法讽刺、无法调整，而人类许多时候会这样说话。为了让Alxea可以处理一切任务，既可以进行活跃的对话，也可以完成平静的朗诵，亚马逊机器学习算法采用了不同的方法，它用专业解说员的声音训练系统，这些声音有的焦急、有的充满忧虑。亚马逊旗下有一家公司Audible，它是有声读物出版商，这家公司帮了大忙。

有太多想说的东西

有些人是语音AI的热心用户，那就是无法在平板手机上轻松输入的人。Gavin Kerr是Inglis的CEO，这家公司向残疾人提供住房和服务，公司已经在8户居民的家中安装了Echo和Dot设备。如果测试完成，Gavin Kerr希望300多位居民全能安装，这是公司的全部客户。Kerr说：“它为居民带来了难以置信的好处，他们可以过得更舒适，可以获得独立性。”

Kerr与几百人合作，这些人患有硬化症或者其它日渐让人衰弱的疾病。有些人卧床不起，或者坐在轮椅上，因为很难碰到墙壁上的恒温器，他们深感苦恼。Kerr解释说：“他们的身体难以适应温度。呆在华氏72度的房间内，前一小时可能会觉得太热了，后一小时又觉得太冷了。”因为移动能力受到限制，他们很难让自己过得舒服，如果没有全天候援助，他们会过得更困难。

稍加修改，Alexa软件可以用特定语音提供服务。有一名男子，快40岁了，他想离开长期看护机构，回到日常社区生活。Kerr回忆说：“他告诉我：‘我没有办法使用Alexa语音命令。’我问他：‘你能说什么？’然后我们就修改了软件，可以让他按自己的方式用语音控制设备。现在他如果要打开厨房灯泡会说‘Mom’，如果想打开浴室灯会说‘John’。”

Inglis为自己的Echo用户提供培训，时间只有4小时，许多新用户会进一步探索。从盒子里拿出Echo，包装会告诉用户一些常见的操作指令，比如播放音乐、设置闹钟、更新购物清单。用户可以在智能手机、平板上调用Alexa控制面板，调整设置，还可以下载新App，面板还会引导用户，看看哪种提示音能让App的工作变得更好。

每周（有时频率更高）Alexa总经理罗勃·普契尼（Rob Pulciani）都会查看统计数据，这些数据可以告诉他Alexa、Dot用户最常用的表达是怎样的。一般来说，清单中排名靠前的表达都是想获得音乐、新闻、天气信息、交通信息、游戏。今年春天，有一个请求迅速爬升，这是一个短语：“Alexa，帮我放松一下。”

当用户提出这样的请求时，系统会播放一些声音安抚用户。可能是鸟叫，可能是波浪轻敲海滨，可能是货运车穿过黑夜。如果用户愿意，这些噪音式的环境声会连续播放几小时。2015年，当类似的App出现在Alexa平台时，普契尼觉得纯粹只是搞怪。不过这些App很快就吸引了一大堆用户。压力大的成年人听着这些声音入睡，父母将它们当成摇篮曲，安抚古怪的婴儿。发现这一趋势之后没过几周，普契尼就与同事对Alexa的内容架构进行调整，这样一来当新用户问系统有什么新“技能”可以尝试时，他们能够快速找到让人放松的声音。

持续对话

谷歌、苹果、微软、亚马逊的AI平台有着不同的优势。谷歌助手在搜索指令方面表现最好。苹果Siri和微软Cortana有其它一些优点。至于Alexa，它的购物指令特别出色。

如果语音AI想获得最终胜利，必须与用户进行交流，这种交流长达几分钟，非常真实。任务艰巨，机器的能力必须很强大，能够判断人类说话者的意图，甚至能够识别不明显的请求。当朋友说：“我几周没有去健身房了。”人类知道他的意思可能是想谈谈压力或者自尊。对于AI软件而言，这种意图很难明白。突然转换话题，AI也很难跟得上节奏。

为了与下一代AI、语音研究人员建立更强的联系，一年前亚马逊邀请几十所大学的工程学学生开发语音机器人，亚马逊要求机器人可以完成20分钟的对话。在11月截止日期之前突破最大的学校将会拿到50万美元奖金。

我花了一周时间对将近5款机器人程序进行测试，每一次都从简单的问题开始，然后进入巧妙的开放式陈述，陈述的只是观点，回应有很多的可能性。开始时还是不错的，机器会问你：“看了最近上映的电影吗？”我说：“看了。我们看了《隐藏人物》（Hidden Figures）。”这部电影讲述的是NASA成立之初的故事，接下来，聊天机器人模仿报纸对电影发表评论，它说：“我认为在实际数学方面《隐藏人物》有点浅薄。”我对这部电影没有这样的感觉，看起来这样表述对于AI程序而言还是很不错的。很快对话就进行不下去了，不过至少还有之前刹那的美妙时光。

可惜，没有一款聊天机器人程序能够完成任务。最让人困惑的是机器会说：“你喜欢路边餐饮吗？”而测试时我们谈的却是网站。

几天后，我问普拉萨德，让他谈谈对社交机器人的看法，早期的失败没有困扰他。普拉萨德说：“这是一个超级重要的领域。如果达到这样的水平，那么Alexa将是非常聪明的。要达到很难，比围棋或者国际象棋难。在这些游戏中虽然可能性的棋步很多，但是我们知道最终目标是什么。如果是对话，你不知道对方想达成怎样的目的。”如果Alexa能够解决这个问题，我们就可以与它真正对话了。

相关推荐