智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 云鹏
销量缓踩刹车的智能音箱,与狂飙的ChatGPT,能擦出什么火花?
ChatGPT带来的生成式AI热潮正在席卷各行各业,各类智能硬件产品上也不断涌现出新的功能和应用。
在出货量逐年下跌、消费者热情逐渐消退的智能音箱产业,生成式AI强大的语义理解、用户意图理解以及内容生成能力,给了这一产业的玩家们寻找新机遇的绝佳机会。
前有小度科技融合文心一言打造的针对智能设备场景的人工智能模型“小度灵机”,后有天猫精灵接入“鸟鸟分鸟”模型打造“AI嘴替”,并官宣将接入阿里大模型通义千问……智能音箱在生成式AI的加持下,正在变得更“聪明”,更有“人情味”。
那么,现在有哪些玩家已经入局生成式AI与智能音箱的集成?生成式AI如何赋能智能音箱,而搭载生成式AI技术的智能音箱距离大规模普及还有多远?我们试图通过追踪各家智能音箱玩家的最新动作并与智能音箱行业从业者对话来找到这些问题的答案。
一、巨头动作频发,ChatGPT是智能音箱的下一个风口吗?
智能音箱与生成式AI技术的结合已经在巨头玩家中出现雏形。2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型“小度灵机”,并将其应用到小度全系产品中。4月11日,天猫精灵宣布将正式接入阿里巴巴通义千问……
众所周知,小度、天猫精灵已经稳坐国内智能音箱市场前三甲多年。洛图科技的数据显示,2022年中国智能音箱全年销量达到2631万台,百度(35%)、小米(31%)、天猫精灵(27%)、华为(4%)四个品牌合计占据了高达96.5%的市场份额。
当下,这些智能音箱玩家也成为了生成式AI浪潮中的主力军,走得快的一批已经拿出了基于生成式AI技术的智能音箱测试产品,还有一类智能音箱玩家正在竞相发布生成式AI技术领域的成果积累,而走得最慢的一类玩家,还尚未透露大模型领域的相关布局。
▲部分智能音箱玩家的生成式AI技术布局(来源:官方公开信息)
1、小度、天猫精灵抢跑,ChatGPT版智能音箱已公开测试
一类就是以小度、天猫精灵为代表的智能音箱玩家,它们已经大踏步入局,并初步亮出了自己的成果。
小度这边亮出的是人工智能模型“小度灵机”,借助小度灵机大模型,现有智能音箱中的语音助手可以变成“超级助理”。
在官方发布的测试视频中,测试员告诉超级助理,他要在周末做各种各样的事情,而在叙述这些事的时候,测试员会故意提出“修改时间”的要求,比如原定于周日要做的A事件被B事件替换。
即使面对测试员的一系列复杂要求,这位超级助理也可以从中提炼出真正有效的信息,并据此给测试员生成一份正确的时间安排表。
此前小度智能音箱并没有理解这样复杂描述并提取信息、进行整合的能力,小度灵机模型的作用体现的比较明显。
此外,在智能家居场景中的设备控制环节,小度灵机大模型可以化身智能管家,更准确地识别出用户的真实需求。
在演示中,测试员告诉智能管家,“我每天早上七点半一定要起床,周末可以晚一些,大概九点左右,干脆就九点半吧。冬天室内温度不能低于23度,夏天温度可以定在26度。”此时超级助理可以根据这些描述,确定要在什么时候开启家中的空调、调整到什么样的温度比较合适。
相比传统智能助手只会理解“打开空调”这样的简单单一指令,灵机模型可以认识到:“用户到家时,家里温度与用户期望的不一样,所以需要打开空调,并且根据现在的季节调节到合适的温度”。
显然,大模型的加入,可以让智能音箱实现认知能力上的提升。
▲小度灵机大模型
天猫精灵的策略是针对于智能音箱训练出一个个性更为鲜明的大模型。4月11日,天猫精灵宣布将接入通义千问,据阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团首席执行官张勇透露,未来,天猫精灵除了能回答用户的提问外,还会成为更人性化的智能助手。
不同于知识面更为广泛的通识性大模型,更加垂直的“个性化大模型”面向的是家居场景中相对更个性化的需求,在这种个性化的大模型加持下,这些智能音箱产品可以产生一些特定的“人格化”特征,比如“鸟鸟分鸟”,这一模型的语气、语调与脱口秀演员鸟鸟如出一辙,使得智能音箱在内容生成、理解能力更强的基础上,还增强了可玩性。
▲天猫精灵“鸟鸟分鸟”
2、智能音箱+生成式AI双双参与,华为、亚马逊、谷歌仍缄口不言
第二类是此前在生成式AI技术以及智能音箱领域均有布局,但尚未透露是否会将两者进行结合的玩家,包括华为、亚马逊、谷歌等。
拥有“盘古系列AI大模型”的华为,是智能音箱产业的重要参与玩家,从其应用领域来看,华为云盘古大模型将在气象、医药、游戏、税务等方面应用,但对于大模型在智能音箱领域的布局未有相关动向公布。
亚马逊稳坐智能音箱市场出货份额第一多年,上周,亚马逊的Bedrock生成式AI服务和自有大模型泰坦(Titan)刚刚面世,相比于微软、谷歌等,其动作已经落后。
不过,亚马逊还未透露是否将其相关技术应用于智能音箱Echo中。
今年3月,谷歌发布聊天机器人Bard后,就有外媒报道,该公司正在重组其虚拟助理部门Assistant的汇报架构,以专注于其此前推出的聊天机器人Bard研发。
谷歌副总裁兼助理业务部门负责人Sissie Hsiao说:“随着Bard团队继续这项工作,我们希望确保继续支持并执行未来的机会。今年,我们比以往任何时候都更加专注于为用户提供有影响力的交付。”
而谷歌的智能音箱产品Echo是否会融入Bard的能力,谷歌尚未给出准确答复。
3、苹果、小米尚未官宣,内测或已开启
最后一类是以苹果、小米为代表的玩家,这些玩家已经深耕智能音箱市场多年,但尚未透露与大模型相关的技术研发具体进展。
小米曾透露,其很早就在AI大模型领域有尝试,采用多技术路线并行,其中,小爱同学就是典型的大模型落地应用场景。
作为国内智能音箱玩家前三甲,小爱同学的实践应用经验已经非常丰富。据了解,截至2022年12月小爱同学全球月活跃用户1.15亿。上周五,小米雷军在微博谈到大模型,并着重提到了小爱同学团队在AI领域已耕耘多年。
并且,他还透露:“我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”
此外,苹果也曾在2月的内部会议上透露,苹果正在重点关注人工智能和大模型,Siri开发团队等在定期测试“语言生成概念”。此外据外媒9to5Mac报道,苹果已经在tvOS 16.4中引入了“Siri自然语言生成”的新框架。
ChatGPT的出现与爆火证明了生成式AI这一路线的正确性,先行的巨头玩家也证明了智能音箱与生成式AI结合的可行性,以及生成式AI技术正在为逐渐没落的智能音箱产业带来新变量的必然性。
回溯过往,2014年亚马逊推出全新硬件品类Echo,将智能语音交互技术植入传统音箱,带动了智能音箱的火爆热潮。时至今日,这一曾被科技圈众星捧月的“黄金赛道”,却声势渐熄。
二、熄火的智能音箱,在ChatGPT浪潮里寻找新变量
从市场数据来看,市场调研机构洛图科技的报告显示,2022年全球智能音箱市场出货量为1.2亿台,同比下降25%;国内智能音箱市场销量2631万台,同比下降28%。IDC发布的2023年中国智能家居市场的十大洞察也透露,智能音箱和视频娱乐设备的市场需求正在逐渐消退,整个市场呈现下滑趋势。
▲2017年-2022年中国智能音箱市场销量规模变化(图源:洛图科技)
智能音箱产品中存在的交互体验、应用场景单一、产品缺乏创新、互联互通差等问题使得一些设备被放在用户家中“吃灰”。
当下,以ChatGPT为代表的生成式AI技术在上下文理解、多轮对话、内容生成等方面展现出了极高的交互水准,巨头玩家的入局也展现了其与智能音箱的可行性,那么从整个行业来看,生成式AI技术能为智能音箱带来什么新的变量?
首先从基本功能来看,智能音箱曾被看好的语音交互和智能家居入口两大功能在实现上与生成式AI的特性有一定相似之处。这些功能都需要智能音箱去理解用户的真实意图,并且生成质量更高的答复,或者能通过对用户说话内容上下文的理解来控制相应的智能家居设备。
此前,智能音箱大多情况下只能实现一问一答或者十分简单的沟通,依托于生成式AI技术在内容生成和理解能力上的优势,智能音箱可以在进一步理解用户意图的基础上,让回答内容的质量能够更趋向于真人的表现。
除了基本功能,生成式AI技术能制定计划、生成摘要等强大理解能力的技术将进一步扩展智能音箱的应用场景。智能音箱在语音交互方面具有声音大而清晰的天然优势。未来,智能音箱的功能可能并不止于家庭,或许会走进办公场所成为人们工作的助手等。
从交互方式来看,生成式AI技术将会让人与机器交互的体验更加流畅。ChatGPT的交互方式是文本,需要用户打开电脑或者手机,键入文字才能得到回应,而智能音箱则不同,其主要依靠语音,用户不需要借助其它设备,只要智能音箱能听到用户声音就可以触发交互。
除此以外,在市场上,ChatGPT也正在带动智能音箱产业成为资本的焦点。据证券之星的消息,奋达科技、漫步者、国光电器等智能音箱概念股都出现大涨行情,资金涌入迹象明显。
在智能音箱产业进入瓶颈期的当下,生成式AI、大模型的出现又将其重新拉回大众视野,并且迅速带来颠覆性革新,其能为这一产业带来多少新变量,还需要搭载着新技术的智能音箱真正走进家庭,我们才可能知道答案。
三、“ChatGPT版”智能音箱普及背后的三大挑战
不过,想要让搭载着生成式AI技术的智能音箱真正在每一个用户家中实现普及,背后还有算力、数据、隐私等天然壁垒。
前段时间,生成式AI浪潮中最炙手可热的ChatGPT也被踩下刹车,ChatGPT Plus暂停付费、多国的监管机构禁止ChatGPT使用,这背后同样折射出生成式AI进入C端市场需要面临的算力、数据安全、隐私保护的考量。
首先从算力层面来看,面对参数规模的大幅增长,“暴力堆叠”(利用大量高性能GPU)已经成为企业提升大模型训练效果的主要手段,这背后高昂的成本可能成为“ChatGPT版”智能音箱落地普及的门槛。
不过算力成本高昂的问题并非无解,此前,创新奇智推出制造业预训练大模型,创新奇智CTO张发恩在接受媒体采访时透露,同样规模参数的大模型,其训练精度和所需算力水平其实在快速下降。
更直观的来看就是,随着开源大模型的出现,一些企业不需要自己从0到1去训练大模型,前人被训练好的大模型可以直接调用,再在这一基础上进行优化,这相比于从头开始训练的大模型,其成本将少得多。
并且,未来随着算法进化,大模型训练过程中对算力的依赖度也会大大降低。
第二个挑战是,ChatGPT爆火的很大一部分原因是它可以颠覆式提升生产效率,而这种输出方式主要以文字、图片、视频为主。智能音箱则更注重语音交互,但在人们的日常生活、工作中,需要音频反馈的内容可能只占一小部分,大部分还是以文本、图片、视频输出为主。因此,“ChatGPT版”智能音箱的普及落地需要找到一个能切准用户真正刚需,并且适配于语音交互的场景。
物联网音视频技术底层服务商相关负责人告诉智东西,站在大模型的角度,它对意图理解、情绪理解、个性塑造和反思能力有很强的表现并擅长内容创作等,但此前智能音箱的交互还停留在机械式问答。
他补充道,未来可能会诞生一些陪伴型的设备形态,当然也有可能有别于现有的智能音箱。
如果仍然以聊天对话、控制智能家居设备的功能为主,搭载“ChatGPT”的智能音箱可能很快也会褪去热度,再次沉寂,因为这看起来与之前的智能音箱相比并没有很大区别。
第三个挑战就是,对于用户家庭数据、隐私安全的保护。消费者对于智能音箱收集个人数据的问题一直比较敏感,如果想要搭载生成式AI技术的智能音箱可以更好地理解用户需求,并给出个性化解决方案,那么生成式AI势必会涉及到对用户个人信息的收集。
此时用户对于这类产品是否会接受,以及相关法规法律的健全完善,都会是行业要面对的挑战。
因此,当一个更聪明的智能音箱出现在用户家庭中,势必会经历较长的市场教育阶段。
一项新技术的革新以及对整个产业产生实际的影响必然是长期过程,而这一波AI新浪潮仍处于发展的早期,因此其对于智能音箱这一产业产生的切实影响可能还未明确展现出来。
现在,我们还无法给出类ChatGPT技术在智能音箱中广泛应用、引起真正革命的确切时间,但可以预见的是,ChatGPT引爆的热潮正在加速这一进程。
结语:解密AI带给智能音箱的想象空间
随着生成式AI技术的快速发展,日渐熄火的智能音箱产业将有望找到新的增长空间。在此基础上,智能音箱等智能终端设备的人机交互模式也将带来新的变革。
多年以来,曾靠语音助手红极一时的智能音箱一直没发展出什么爆款新功能,也没有出现令人惊艳的重磅升级,使得消费者的换新需求大打折扣,如今这类上知天文下知地理、还能拥有情感陪伴的生成式AI技术,未来如能和智能语音助手结合在一起并落地到用户家中,将有望带给智能音箱产业新的生机。
不过对于其未来能产生哪些新的场景、新的应用?智能音箱的形态又会发生什么样的变革?目前还未有定论。
GTIC峰会预告:
做Matter+ChatGPT时代的瞭望者!4月28日下午2点,GTIC 2023全球AIoT智能家居峰会将于AWE同期,在上海卓美亚喜玛拉雅酒店三楼欢宴会厅举行。完整议程正式公布,欢迎报名参会。