向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

车东西(公众号:chedongxi
| 摩拉

随着汽车智能化水准的提升,人车交互也成了一个关键命题。但目前正在快速普及的语音交互、手势交互等技术,并没有让车内交互体验带来质变,其更像是现有交互方式的补充。

那么人车交互的未来发展方向究竟在哪里呢?对此,一些领先的AI和汽车公司给出的答案是多模态交互。

即车辆通过对语音、图像、位置、温度等多种信息的融合处理,更主动、更深入地了解乘客的信息,从而主动对其进行关怀、推送相关的内容/服务,并改变车辆设置。

今年上海车展期间,国内知名的AI芯片及解决方案公司地平线就在其自动驾驶产品之外,首次展出了多模态车内交互解决方案,包括语音交互、车内视觉感知、多模唇语命令词、多模情绪识别、多模身份识别等多项细分技术,算是开辟了汽车业务的第二战场。

在随后的CES Asia上,地平线还宣布与理想汽车达成合作,向其首款量产车理想ONE提供多音区解决方案,意味着地平线的多模态车内交互解决方案将步入量产阶段,与地平线的自动驾驶系列解决方案一道,成为地平线迈入汽车产业大门的两大核心武器。

今年CES Asia期间,地平线多模交互产品总经理张宏志在车东西主办的智能座舱专场论坛发言后,与算法研发部副部长牛建伟一道,接受了车东西的独家专访,就地平线在汽车领域的整体布局、多模态车内交互解决方案的技术细节,以及其解决多模交互核心难题的方式等关键问题进行了阐述。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲张宏志在车东西主办的智能座舱论坛上发言

透过这次专访,既让我们看到了地平线在汽车领域的具体打法与发展策略,也向外界透露了其在车内多模交互这一前沿领域具备的核心技术水准,意义重大。

一、发布AI on Horizon战略 两大业务迈入智能驾驶

416日至25日,第18届上海车展在上海国家国际会展中心拉开帷幕,在一众汽车厂商的展台之中,地平线的展台格外显眼。

虽然不是整车企业,但在地平线看来,其未来命运已经与汽车产业深深地绑在了一起。

在当日的新闻发布会中,地平线创始人、CEO余凯正式对外界发布了AI on Horizon战略,核心是做智能汽车时代的底层AI技术赋能者,向车企、Tier1等伙伴提供芯片、AI算法、工具链、场景SDK等全套技术支持,帮助其打造基于AI技术的应用与服务。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲余凯在上海车展期间发布AI on Horizon战略

地平线的核心业务聚焦基于边缘AI芯片和核心算法的解决方案的研发,可以在汽车、AIoT等多个领域应用,汽车领域其此前主要围绕自动驾驶计算平台以及相关的核心算法。

今年上海车展期间,地平线除了展出一系列自动驾驶相关产品外,还首次展出了其自主研发的多模态车内交互解决方案,基于其自主打造的征程2.0 AI芯片架构、多模态融合算法等技术,可以综合处理视觉、语音、车身传感器等多种信息,形成对天、地、人、车的物理世界到数字世界的建模。

这些数字化的建模能够推动面向汽车用户的服务和推荐更加精准化、主动化和人性化,并且跟车身功能进行深度整合,车身功能被全面赋予智能能力,从机械的物理功能转化成智能化服务功能。

这也就是说,地平线在自动驾驶业务之外,同时也更加注重代表人车交互未来的多模态车内交互业务,算是开辟了汽车业务的第二战场。车东西本次对话的主角张宏志和牛建伟,则正是车内交互的业务和技术负责人。

一个有趣的细节是,自上海车展后,地平线在对外宣传其车内交互技术时,重点都放在了多模态车内交互层面,并且张宏志的Title,也从此前地平线车联网事业部总经理变为了多模交互产品总经理

地平线对车内多模交互技术的重视程度可见一斑。

那么一个关键问题是,地平线的多模态交互方案具体有哪些功能来帮助提升车内交互体验呢?张宏志和牛建伟各讲了一个例子。

第一个是唇语+语音的多模交互技术。

此前的语音交互技术,受到行车中胎噪、风噪、其他人交谈等噪音影响,容易产生漏听、错听的问题,而有了这种多模交互技术,车辆可以通过对收集的声音和乘客唇语的综合处理,确定是哪个乘客在说话,以及其说话内容。

第二个是驾驶员疲劳监测与分级。

为了让车辆更加主动的了解驾驶员和乘客的状态,驾驶员或乘客监测系统逐渐开始量产装车,其中一个重要应用场景就是驾驶员疲劳监测和分级。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线的车内多模交互技术展示

为了实现这一目标,将对驾驶员的视线、眼神、表情、头部方向、是否打哈欠、是否喝水等多种信息融合进行处理,就既可以了解驾驶员是否疲劳,同时还可以了解到其疲劳程度。

此外,牛建伟也表示,未来的多模交互解决技术将实现车内信息的协同融合,例如车内传感器感知驾驶员的状态,车外传感器了解目前的天气、温度、地形等信息,综合给用户推荐相应的音乐和车内温度等。

二、签约理想 车内多模交互技术已步入量产阶段

上海车展亮相之后,地平线在CES Asia期间还宣布向新造车公司理想汽车的首款量产车理想ONE提供车内多音区语音交互解决方案。

即通过四个车载麦克风,以及地平线研发的声源定位、盲源分离和降噪算法,对不同乘客的语音指令进行精确区分和识别,进而助力理想汽车实现更加智能的语音交互体验。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线为理想ONE提供了车内多音区解决方案

虽然这个多音区解决方案只是单模态交互技术,但其实它也是地平线车内多模交互解决技术的一个细分技术。

这次合作,既说明地平线的车内交互技术获得了理想汽车这种知名新造车公司的认可,同时也说明其车内多模交互技术,正式步入量产阶段。

据张宏志介绍,理想ONE在年底即将交付,时间较早,是地平线车内交互技术走向量产的重要合作伙伴。

地平线在过去几年的业务拓展过程中,在自动驾驶、AIoT等领域的合作基础上,车内多模交互技术已经与多家国内外Tier1和车企达成合作,加上后装车载智能设备,总计已经有几十个合作伙伴,后续也将有更多车辆搭载地平线的车载多模交互技术方案陆续上市。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线与首汽约车达成战略合作

正如前文所言,多音区方案只是地平线车载多模交互技术的一个细分技术,那么地平线的车载多模交互技术整体上能提供哪几类产品和技术呢?

张宏志告诉车东西,总体来说分为四块业务:

1AI芯片能力

这是地平线最基础的业务,客户可以基于地平线第二代AI芯片征程2.0,单独打造语音、图像类的AI应用,或是语音、图像等多模态融合处理的AI应用(多模态交互)。

2、算法能力

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线车内视觉AI算法

基于AI芯片,地平线团队在图像、语音领域也研发出了最底层的AI算法,例如前面提及的四音区方案、离线唤醒、驾驶员监测、表情识别等技术,都可以单独或打包输出给合作伙伴——例如理想ONE搭载的都是四音区方案。

3、打包的多模态交互解决方案

正如文章开头所言,车内交互技术的未来就在多模态交互层面,对于集中在应用和服务创新为主的车企和高度集成化为核心竞争力的Tier1来说,选择包括芯片、语音与图像算法在内的打包方案,是一个非常便捷的做法,能够加快车型的量产时间和创新迭代速度。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线可提供软硬一体的车内多模交互解决方案

4、开放工具链

为了更好、更快迎接AI时代的到来,地平线将软硬结合、面向场景的AI解决方案经验通过工具链共享给行业和客户。

对于那些拥有较强AI研发能力的大型车企和Tier1企业来说,有能力从头打造自己的多模态交互产品,为此,地平线提供丰富的工具链,方便其基于地平线的底层算法,研发自己的技术和产品。这是地平线的AI on Horizon战略核心体现,充分开放赋能,向行业客户共享经验和能力。

与电子产品不同,汽车上搭载的相关软硬件技术都有严格的车规级要求,那么地平线的这套多模交互技术解决方案,在软硬件上是否达到了车规的要求呢?

张宏志表示,其多模交互技术使用的地平线征程2.0 AI芯片是面向车规级要求进行设计的。按照地平线的规划,未来L3级自动驾驶时代,其多模交互系统,则将达到ASIL B级功能安全标准。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线展出的驾驶员监测技术

满足车规之外,想要实现技术上车的另一个难题则是成本足够亲民。

对此,张宏志透露其打包的多模态交互解决方案目前的成本在上百美金,即数百人民币的程度,现在比较贵。但随着规模化量产之后,会迅速下降到几十美金的水准,可以实现普及。

地平线从一开始就要做成本可接受的产品,比如我们的芯片就追求高性能、低功耗,强调性价比,同时也注重提供软硬件一体化的能力,并向合作伙伴提供工具链,实现开放式赋能,这些都是实现技术平民化的关键能力。张宏志总结道。

三、长期积累、自主研发 三招攻克多模态交互融合难题

此前,语音交互或者手势交互,都是让AI算法对语音或者图像某一具体模态进行处理,进而给出反馈结果。而多模态,则是说让AI系统将语音、图像甚至是嗅觉、触觉等更多模态进行融合处理给出反馈。

现阶段实现多模态交互有两种技术方式,粗略来说即结果融合式和底层数据融合式。

结果融合式就是说系统先对语音、图像等模态分别进行处理,得到每一个模态的处理结果后,再汇总所有结果综合判断。

底层数据融合式则是说用一个超级算法,直接对获取的语音、图像等不同模态信息进行处理,进而给出判断结果。

前者的实现方式较为简单,但多了一步处理速度较慢,且模态之间的信息不是综合处理,难以获得更加深入的处理结果。

后者虽然克服了前者的缺陷,但因为现在绝大部分深度学习模型都只能用来处理语音或图像等一种模态信息,技术研发难度大大提升。

那么作为一家专注在芯片和底层AI算法领域的知名公司,地平线走的是哪一种技术路径呢?

当然是底层数据融合模式。牛建伟说道,在数据处理层面实现多模交互,不仅是算法问题,更是涉及到传感器、芯片、软件的系统性问题。

据其介绍,地平线多模交互技术团队基于地平线在芯片、视觉AI技术、语音AI技术方面的积累,历时1年多的时候,通过三大招数,研发出了在底层对数据进行融合处理的多模交互技术,他以目前最普遍的音频(语音)、视频(图像)融合处理技术进行了详细介绍。

1、重新设计传感器

现有的摄像头、麦克风输入的视频帧率为30帧,音频为100帧,无法完成时间同步,即无法进行后续的融合处理。

而要解决这个问题,就是提升摄像头的视频帧率,实现多路音频和视频输入,并且还要具备更大的带宽与高效的压缩模型。

2、升级优化计算芯片

由于多模处理需要处理更高帧率的多路音频、视频信号,并且还要用特殊的神经网络层来抽取特征做对应,因此计算量较单纯的音频处理来说,相当于是提升了一个数量级——从几十GOPS提升到了几百GOPS

因此地平线多模交互团队也对地平线的征程芯片进行了一些优化升级,以更加适应车内多模交互应用。

据牛建伟介绍,地平线的征程2.0 AI芯片具备非常高的AI等效算力,能够充分满足多模交互算法的算力需求。

3、特殊编码算法实现综合处理

现有的神经网络只能用来处理同一类型的信息,因此无法对音频和视频进行融合处理。

在有了合适的硬件后,地平线基于此研发出了一套多模交互算法,即先用一个编码器分别对音频、视频信息进行编码,变成同一类信号,然后再将其映射到一个高维空间,这样就能将其放在同一个神经网络里进行处理。

实现多模态车内交互技术的研发,离不开地平线此前在AI芯片、以及语音处理、图像处理等方面的积累。张宏志最后强调道,只有将AI芯片、语音处理、图像处理等每一项细分技术打磨好,才能实现不同模态数据的融合处理。

向理想汽车提供语音技术后 地平线多模车内交互将步入量产阶段

▲地平线美国研发中心

据其介绍,地平线目前总计有1000多正式员工,其中有四五百人都在从事AI芯片、底层AI算法等工作,而在智能驾驶这个应用方向,又有数百人的团队在做相关工作,这些算下来,相当于有大几百人在为汽车领域的技术工作,规模相当之大。

结语:一家有真实力的多模交互技术供应商

在与张宏志和牛建伟交流完后,车东西有一个非常明显的印象,就是地平线是一家有真实力的多模交互技术供应商,体现在三个方面:

第一,基于地平线在AI芯片、语音处理、图像处理等方面多年的积累,过百人的团队在1年多的时间攻克了多模交互的核心难题,实现了语音、图像等不同模态信息在底层的融合处理。

第二,针对车内出现的不同行车场景,其将多模态车内交互解决方案分成分区降噪与拾音、手势识别与跟踪、表情识别、多模唇语命令词、多模情绪识别等多个典型细分场景的技术,方便车企按需选择。

第三,在4月份刚刚展出多模态车内交互解决方案没多久,地平线就迅速与理想汽车等企业达成合作实现量产上车,说明其技术实力已经达到一定水准,获得合作伙伴的认可。

而随着理想ONE项目的逐渐落地,未来也将有更多车型搭载地平线多模态车内交互解决方案上市,让地平线为更多新车的智能升级转型提供AI动力。

不远的未来,随着L3及以上级别自动驾驶技术的逐渐落地,地平线的多模态车内交互解决方案也将与自动驾驶系统逐渐融合,让汽车真正变成一个机器人,不仅能帮人类驾驶,还能像朋友一样,对乘客进行多方位的关怀,实现有温度的出行体验。