端侧AI走向分布式将成为必然!华为HiAI3.0剑指“超级终端”

智东西(公众号:zhidxcom)
文 | 云鹏

智能语音助手应该说是大部分消费者对于AI认知最强烈的应用之一,而手机也作为其最主要的载体,成为了AI与用户交互的最前线。从八年前iPhone 4s上的Siri与大家见面,到现在记住所有厂商语音助手的名字似乎都成了难事,AI语音技术不断快速迭代发展。

智能语音助手只是手机众多AI功能中的一种,例如人脸识别、照片美化等功能现在也成为了AI重要的应用场景。通过AI技术加持,厂商们不断纵向挖掘手机的价值,发掘更多新颖的功能。同时他们也在手机硬件层面展开了AI能力的搏杀,如华为和苹果等厂商都在SoC中加入了指向AI算力的NPU。

随着AI技术不断成熟、AI硬件成本不断降低,越来越多的设备拥有了一定的AI功能。小到一副耳机,大到一台电视。每一个用户拥有的智能设备都在增加,每一个用户需要用到AI功能的场景在不断丰富,每一个智能设备所拥有的AI能力也越来越强。

端侧AI走向分布式将成为必然!华为HiAI3.0剑指“超级终端”

在这样的背景下,对多种设备之间AI能力的协同需求逐渐增加。如何把这些零散的、分布在各个设备之中的AI能力进行整合,并针对不同的场景,根据用户需求,找到最优的设备组合为用户提供服务,是各家厂商在当下需要探索的问题,而这也是我们今天所要讨论的——端侧AI走向分布式。

目前国内厂商中,华为对于端侧分布式AI的探索已经取得一定进展。今年11月,华为HiAI3.0平台发布,华为终端软件部专家表示,目前基于语音、视觉等AI技术的多模态交互已经逐渐取代传统的基于单点的交互方式,华为HiAI3.0即为一个具备端侧分布式AI开放能力的平台,可以从系统底层打通各个设备之间的联系,实现多设备AI能力的协同。

端侧AI走向分布式将成为必然!华为HiAI3.0剑指“超级终端”

一、算力共享、能力互补的“超级终端”

表面看来,手机发展到目前阶段,各方面功能都已基本具备,距离一个设备走天下的那一天似乎也不远了,那为什么端侧AI还要向分布式发展呢?

尽管通过添加AI运算处理单元,手机基本都已具备一定的AI算力,但手机的外设能力与AI算力并不匹配。比如,虽然手机具备一定的收音能力,但是相较于音箱的麦克风阵列排布就稍显逊色。再有,当前手机的主流像素水平已经普遍达到4800万以上,成像质量确实得到了一定保证,但是与电视摄像头、家庭监控摄像头相比,拍摄的角度和广度都要打折扣。这是设备硬件差异带来的“异构性”。

华为终端软件部专家说,通过分布式软总线、设备虚拟化等分布式技术基础能力,华为HiAI3.0平台可以实现多设备的本地高速互联。这样所有接入设备的外设能力都可以被其他设备共享。比如需要较为准确的健康指标监测功能时,智能手表就可以发挥它的优势,而需要对用户室内大范围图像进行捕捉时,电视摄像头又可以派上用场。

除了外设,AI算力当然也是设备之间共享的另一个重要部分。在一个智能系统中,可能会接入许多的智能设备,而它们之间的AI算力差异还是相对明显的。像智能电视、手表、耳机等设备其实AI算力并不强,但是他们收集图像、音频、传感器数据等方面的能力却很强,潜在AI运算需求并不低,这时系统就可以借助AI算力较强的设备完成运算任务。这样给用户带来最直观的感受就是多设备AI业务体验的一致性。

通过AI算力和外设能力的协同整合,HiAI3.0系统将可以根据不同设备上的传感器和用户交互行为,从多种维度来更加准确地判断出用户当前所处的场景,从而动态选择出最优的外设与算力组合完成AI计算任务,充分利用多设备之间的能力异构。

端侧AI走向分布式将成为必然!华为HiAI3.0剑指“超级终端”

比如当用户在家中进行运动健身时,系统就可以通过电视的摄像头对用户整体的姿态图像进行捕捉,然后利用手机的AI算力,对收集到的图像信息进行分析,根据用户的骨骼结构判断用户当前的动作是否达到标准,并可以通过音箱等设备播放语音提示进行姿势矫正,从而让用户在家中享受到“健身私教”般的体验。

华为终端软件部专家说,端侧分布式AI能带来的新改变,总结起来有四大特点,就是听的更清、看的更明、感知更准、计算更快。独立设备之间较为割裂的交互体验可以被统一起来,每一个设备不再单单是垂直能力的延申,更可以连点成网,形成一个智能“超级终端”。

二、端侧分布式AI中关于“What”、“Who”、“How”的问题

端侧分布式AI诚然可以带来用户体验的新一轮升级,但华为相关专家表示,端侧AI向分布式发展,主要还面临着三大难点。

更多具备不同外设能力的设备接入系统,就意味着会有更多不同模态的数据涌入,想要妥善利用这些数据,首先就要解决多模态机器学习问题。

根据华为终端软件部专家介绍,在模态表示方面,利用多模态数据之间的互补性,去除模态间的冗余性,得到更好的特征表示是关键问题;而在模态对齐方面,确定来自两种或两种以上不同模态的数据元素之间的关系也存在挑战;另外该领域的长期研究重点之一,就是如何连接来自两个或多个模态的数据信息来进行推理运算,也就是模态的融合。

端侧AI走向分布式的过程中其实还面临着许多客观因素的制约。端侧分布式AI系统其实是去中心化的,没有特定的中心节点,并且各设备之间目前主要通过无线网络连接,其带宽容易受到各种阻碍且网络的稳定性也较差。

另外值得注意的是,虽然系统对设备的调用非常灵活,但其实系统的各个节点也是一种“随时加入退出”的状态,并不是绑定在系统中的。并且每一个设备可能都在进行各自的任务,电视可能正在播放影片、手表可能正在计算心率、音箱可能正在播放歌曲。如何通过适当的调度算法,在不干扰这些设备上主要任务运行的同时完成多设备协同,也是分布式系统所面临的一大挑战。

最后,还需要开发出适用于端侧分布式AI系统的“AI引擎”,它可以通过任务分解、调度执行、结果整合、计算容错等步骤,根据调度策略,多端协同完成具体的AI模型推理计算操作。

华为终端软件部专家解释说,多模态机器学习是要解决算什么的问题——“What”,而优秀的调度算法是要解决谁来算的问题——“Who”,最后,AI引擎来解决怎么算的问题——“How”,这是目前端侧AI走向分布式过程中最关键的三个问题,也是华为目前在HiAI3.0平台研发过程中重点攻克的问题。

三、设备不再独立,而是作为系统能力的“延申”

曾经有人给手机下过一个非常精妙的定义,将其称之为人类各种感官能力的延申。的确,手机让人类听的更远,看的更清,将世界拉到你的面前。而端侧分布式AI,似乎就是在将各类智能设备的能力置于一个系统中,做一个“延申”。

也许,一个智能摄像头,可以成为整个系统的“眼睛”,一个智能音箱,将成为系统的“耳”和“口”。但同时,这些不同的“感官”又可以协同起来,在用户每一个需要AI业务的场景中发挥自身的长处。每一个具备AI能力的设备,不再单一独立存在。

对于一些中小创企来说,一个产品全流程的研发,从硬件、系统到应用,其投入往往是非常大的,并且风险也较高。目前部分厂商和消费者间还存在一个矛盾:厂商的产品往往是要打出自己的特色功能,不可能全方位打磨的很完善,但消费者又会因为某些部分打磨不完善,难以对产品有长期持续的兴趣,从而难以形成良性闭环。

华为市场部相关人员表示,HiAI3.0平台可以解决底层系统问题,这样硬件厂商实际上可以更好的发挥自己的长处,在自己的产品的重点上做的更细。因为HiAI3.0系统可以将硬件的关键技术“抽象”出来,成为系统整体的一个模块。他说,“华为在面向未来布局,希望有更多的伙伴可以共同构建一个大生态,端侧AI分布式或许是未来10年互联网行业都要思考的一个问题。”

目前国内厂商也有不少提出了AIoT平台化概念,主要专注于解决设备的连接、兼容、互动等相关问题,但华为第一次将AIoT平台拓展至AI能力层面的互通,这为行业提供了一个新的思路。

结语:颠覆性的用户体验升级与技术挑战并存

AI在手机上的落地开花一般被称为端侧AI 1.0时代,而电视、音箱、手表等多种设备初步具备AI能力标志着端侧AI 2.0的到来。如今,多设备AI能力的协同也开启了端侧AI 3.0时代。虽然端侧AI分布式最终要向着“动态协同”方向发展,但目前技术层面的难关仍然不少。

今年6月的MWC上海大会期间,华为消费者业务产品线总裁何刚首次公布了5G时代华为的“1+8+N”全场景战略。而华为HiAI3.0平台,正是为这一战略做好了各种AI设备底层系统的基础设施建设工作。

全场景下分布式AI的终极目标是将用户的各类智能中端设备进行协同整合,形成一个“超级终端”,无时无刻围绕着用户,渗透进用户生活的各种场景中,为用户提供真正足够“智能”的优质沉浸式体验。

如果说《Her》中的萨曼莎是AI的终极形态的话,那么端侧分布式AI当前构建的技术能力则是最重要的基石之一。