对于Alexa王国来说 理解人类持续对话就是圣杯

智东西(公众号:zhidxcom)
编 | 海中天

导读:从1990年代开始,George Anders就在关注亚马逊,他为美国刊物写了许多与亚马逊有关的文章。最近他出了一本书《你可以做任何事》( You Can Do Anything)。 George Anders刊文介绍了Alexa,既谈到了Alexa的发展,也谈到了它的挑战。通过这篇文章,我们可以看到一个不同的Alexa王国。下面是文章的节选,有缩减:

2012年8月31日,4名亚马逊工程师提交一份专利申请文件,它最终变成了Alexa,这是一套AI系统,它可以处理世界上最大、最复杂的数据集:人类语音。工程师只需要11个单词、一张简单的图表就可以解释它是如何运行的。一名男用户在安静的房间说:“请播放《Let It Be》,披头士的音乐。”一台小小的桌面机器回答说:“没问题,John。”然后它开始播放指定歌曲。

自此之后,面向家庭的语音AI成为亚马逊的大业务,对于竞争对手而言,它也渐渐成为重要的战略战场。谷歌、苹果、三星、微软都投入了成千上万的研究人员和业务专家,它们都想开发容易使用的设备,让我们与设备对话。Witlingo公司开发语音App,为银行、大学、律师事务所及其它机构开发,Witlingo的CEO Ahmed Bouzid认为:“到目前为止,我们所有人必须屈从于技术,比如输入、触击、滑动。现在新用户界面却屈服于我们。”

自2014年推出以来,Alexa设备销售了几千万台。在美国语音AI设备市场,亚马逊估计占了总销量的70%,虽然竞争压力越来越大。谷歌Home也卖了几百万台,苹果与微软很快也会推出自己的产品。

最终,企业的目标是抓住3个市场机会:家庭自动化,家庭娱乐,购物。

对于Alexa王国来说 理解人类持续对话就是圣杯

就目前来说,亚马逊无意从制造设备的企业手中获得收入,也就是制造智能恒温器、灯泡、其它Alexa联网设备的企业。未来,我们可以想像亚马逊会与企业达成营收分成协议,或者选择其它付费方式。

在这3个市场中最小的是家庭自动化市场,每年开支超过50亿美元,去年美国的零售销售额总计约为4.9万亿美元。眼下亚马逊通过销售机器赚钱,定价介于50-230美元,最低端的Dots只要50美元,高端的Echos要230美元,上面有视频显示屏。

有些企业正在开发硬件、开发服务,这些硬件与服务兼容Alexa。例如Capital One,它向银行客户销售Alexa支付系统;多伦多Ecobee制造Alexa智能恒温器,用户只需要说几个单词就可以调高或者调低房间温度。

Ecobee CEO Stuart Lombard说:“我们的客户生活很忙碌。”现在该公司销售Alexa设备有40%的营收来自海外,Ecobee成立已经10年,Alexa设备是公司增长最快的产品线。Stuart Lombard还说:“客户必须穿过繁忙的交通车流回到家里,他们必须喂孩子,必须给孩子换尿布,还要干其它各种事。我们让他们将事情做完,不需要用到手,他们可以用手干其它事。”

当语音遇到AI

语音AI面临很大的技术挑战,因为我们说话时并不是井然有序的,我们会干扰自己,想法会动摇,我们使用单词的方式很奇怪,还会点头,发出咕哝声,我们会假设自己的话是有意义的,实际上没有。

几千名亚马逊员工正在解决这个问题,包括西雅图、Sunnyvale、加州、剑桥、马萨诸塞的研究中心。尽管如此,亚马逊还嫌不够,最近它为1100多个Alexa职位招募员工,涉及到十多个部门,当中有215个职位提供给机器学习专家。在剑桥办公室内,Alexa首席科学家罗希特·普拉萨德(Rohit Prasad)接受了媒体采访,他解释了自己的团队为何需要这么多人。

普拉萨德说:“你提问的每一个方面都让我发笑。”沉思几秒之后,普拉萨德解释说,他在语音技术方面研究了20年,在这段漫长岁月的大多数时间里,进展缓慢让他感到沮丧。但在过去5年里巨大的机会开放了。创造一个真实高效的语音AI是一项复杂的、从未被征服的任务。

在过去的岁月里,语音科学家一直想解决一件事,理解混乱表达的意义,最开始时表达有些混乱,很难搞清表达的意思,有了机器学习这样的新方法,我们用不同的策略取得进步,最开始时匹配是不完美的,机器人从不完美着手,然后通过临时猜测不断优化。关键在于消化大量的数据,从早期的错误中学习。Alexa与用户相处的时间越多,收集的数据也就越多,可以学习的数据也就越多,也就会变得越聪明。进步越大机会越大,这个过程需要大量的人力。

这就是普拉萨德的解释。

对于Alexa王国来说 理解人类持续对话就是圣杯

普拉萨德说:“让我举个例子。如果你问Alexa:‘Adele的第一张专辑是什么?’回答应该是‘19’。如果你说:‘播放它。’Alexa足够聪明,知道播放那张专辑。”如果你在中间加入其它一些话,如果你问Alexa这张专辑是哪年发行的,卖了多少张,会怎样呢?将问题替换“播放它”这个命令,早先的Alexa处理不了。现在技术可以跟着思考前进,至少某些时候是可以的,它知道“它”指的是“19”。

这是一个重要进步,进步归功于机器学习,之前 Alxea也被无数的交换难住,机器学习可以从失败中学习经验。系统知道用户不想听什么歌曲,知道之前的对话最早在何时谈到这首音乐。MIT口语语言系统研究团队的主管James Glass说:“人们会以何种方式要求获得一些东西,你最开始时要做出假定。然后你要收集数据,调校模型。”

Glass说,这种类型的机器学习方法得到了广泛的认可,不过要让它运行需要大量数据,远不是大学研究人员轻易就能获得的。由于Alexa的崛起,亚马逊现在可以获得大量的人机语音交互信息。2016年,Alexa引进一个庞大的数据库,里面全是歌曲歌词,有了这个数据库,当用户要求播放歌词中带‘drove my Chevy to the levee’的歌曲时,系统知道用户要的是Don McLean的歌曲《American Pie》。

普拉萨德正在推行一个新项目,这个项目的关注重点就是新方法的灵活性。具体来讲就是用户撤销最初的请求时,系统要正确识别。用户使用的“信号短语”是大不相同的。一组人说:“不,不,不。”还有一组说:“取消它。”第三组人说的话类似于“等等,实际上我想要的是……”,形式有所变化。Alexa没有必要破解每一种表达。有了大量的样本和半监督机器学习技术,系统可以为否定语音找到大量可能的标记,请求改变之后能挑选出明确的新请求。

为了让Alexa成为更好的倾听者,亚马逊AI专家首先用大量数据训练系统,让它成为更好的说话者,他们对机器合成的女性声音进行优化,让节奏更完美,这样就可以刺激用户持续使用。如果使用的是传统方法,一般会录制大量的人类语音片段,然后依赖片段合成语音。使用这种技术可以生成更自然的声音,但是无法低语、无法讽刺、无法调整,而人类许多时候会这样说话。为了让Alxea可以处理一切任务,既可以进行活跃的对话,也可以完成平静的朗诵,亚马逊机器学习算法采用了不同的方法,它用专业解说员的声音训练系统,这些声音有的焦急、有的充满忧虑。亚马逊旗下有一家公司Audible,它是有声读物出版商,这家公司帮了大忙。

对于Alexa王国来说 理解人类持续对话就是圣杯

有太多想说的东西

有些人是语音AI的热心用户,那就是无法在平板手机上轻松输入的人。Gavin Kerr是Inglis的CEO,这家公司向残疾人提供住房和服务,公司已经在8户居民的家中安装了Echo和Dot设备。如果测试完成,Gavin Kerr希望300多位居民全能安装,这是公司的全部客户。Kerr说:“它为居民带来了难以置信的好处,他们可以过得更舒适,可以获得独立性。”

Kerr与几百人合作,这些人患有硬化症或者其它日渐让人衰弱的疾病。有些人卧床不起,或者坐在轮椅上,因为很难碰到墙壁上的恒温器,他们深感苦恼。Kerr解释说:“他们的身体难以适应温度。呆在华氏72度的房间内,前一小时可能会觉得太热了,后一小时又觉得太冷了。”因为移动能力受到限制,他们很难让自己过得舒服,如果没有全天候援助,他们会过得更困难。

稍加修改,Alexa软件可以用特定语音提供服务。有一名男子,快40岁了,他想离开长期看护机构,回到日常社区生活。Kerr回忆说:“他告诉我:‘我没有办法使用Alexa语音命令。’我问他:‘你能说什么?’然后我们就修改了软件,可以让他按自己的方式用语音控制设备。现在他如果要打开厨房灯泡会说‘Mom’,如果想打开浴室灯会说‘John’。”

Inglis为自己的Echo用户提供培训,时间只有4小时,许多新用户会进一步探索。从盒子里拿出Echo,包装会告诉用户一些常见的操作指令,比如播放音乐、设置闹钟、更新购物清单。用户可以在智能手机、平板上调用Alexa控制面板,调整设置,还可以下载新App,面板还会引导用户,看看哪种提示音能让App的工作变得更好。

每周(有时频率更高)Alexa总经理罗勃·普契尼(Rob Pulciani)都会查看统计数据,这些数据可以告诉他Alexa、Dot用户最常用的表达是怎样的。一般来说,清单中排名靠前的表达都是想获得音乐、新闻、天气信息、交通信息、游戏。今年春天,有一个请求迅速爬升,这是一个短语:“Alexa,帮我放松一下。”

当用户提出这样的请求时,系统会播放一些声音安抚用户。可能是鸟叫,可能是波浪轻敲海滨,可能是货运车穿过黑夜。如果用户愿意,这些噪音式的环境声会连续播放几小时。2015年,当类似的App出现在Alexa平台时,普契尼觉得纯粹只是搞怪。不过这些App很快就吸引了一大堆用户。压力大的成年人听着这些声音入睡,父母将它们当成摇篮曲,安抚古怪的婴儿。发现这一趋势之后没过几周,普契尼就与同事对Alexa的内容架构进行调整,这样一来当新用户问系统有什么新“技能”可以尝试时,他们能够快速找到让人放松的声音。

对于Alexa王国来说 理解人类持续对话就是圣杯

持续对话

谷歌、苹果、微软、亚马逊的AI平台有着不同的优势。谷歌助手在搜索指令方面表现最好。苹果Siri和微软Cortana有其它一些优点。至于Alexa,它的购物指令特别出色。

如果语音AI想获得最终胜利,必须与用户进行交流,这种交流长达几分钟,非常真实。任务艰巨,机器的能力必须很强大,能够判断人类说话者的意图,甚至能够识别不明显的请求。当朋友说:“我几周没有去健身房了。”人类知道他的意思可能是想谈谈压力或者自尊。对于AI软件而言,这种意图很难明白。突然转换话题,AI也很难跟得上节奏。

为了与下一代AI、语音研究人员建立更强的联系,一年前亚马逊邀请几十所大学的工程学学生开发语音机器人,亚马逊要求机器人可以完成20分钟的对话。在11月截止日期之前突破最大的学校将会拿到50万美元奖金。

我花了一周时间对将近5款机器人程序进行测试,每一次都从简单的问题开始,然后进入巧妙的开放式陈述,陈述的只是观点,回应有很多的可能性。开始时还是不错的,机器会问你:“看了最近上映的电影吗?”我说:“看了。我们看了 《隐藏人物》(Hidden Figures)。”这部电影讲述的是NASA成立之初的故事,接下来,聊天机器人模仿报纸对电影发表评论,它说:“我认为在实际数学方面《隐藏人物》有点浅薄。”我对这部电影没有这样的感觉,看起来这样表述对于AI程序而言还是很不错的。很快对话就进行不下去了,不过至少还有之前刹那的美妙时光。

可惜,没有一款聊天机器人程序能够完成任务。最让人困惑的是机器会说:“你喜欢路边餐饮吗?”而测试时我们谈的却是网站。

几天后,我问普拉萨德,让他谈谈对社交机器人的看法,早期的失败没有困扰他。普拉萨德说:“这是一个超级重要的领域。如果达到这样的水平,那么Alexa将是非常聪明的。要达到很难,比围棋或者国际象棋难。在这些游戏中虽然可能性的棋步很多,但是我们知道最终目标是什么。如果是对话,你不知道对方想达成怎样的目的。”如果Alexa能够解决这个问题,我们就可以与它真正对话了。

对于Alexa王国来说 理解人类持续对话就是圣杯