揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 漠影

搜狗在超写实3D数字人领域再度攻破一城,“跨界”手语数字人领域实现新突破!

5月17日,搜狗发布全球首个手语AI合成主播“小聪”,能够自然流畅地为听障者播报手语,在测评中可懂度约85%。

与搜狗以往发布的3D AI合成主播不同,“小聪”并不能穿越摄影棚为大家口播新闻,也不需要真人原型进行形象特征和表情肢体的数据采集,只是通过灵活的手势动作和表情,为听力障碍人士提供“无声的沟通”。

从技术上来看,“小聪”的背后基于搜狗长期研发积累的AI分身技术,结合原力科技的行业领先3D重光照扫描还原完成的手语数字人高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

从3D AI合成主播到手语AI合成主播,搜狗的分身技术实现了哪些突破和挑战?“小聪”的诞生又将会给社会带来哪些改变?它未来还有哪些需要不断完善的地方?

为了更深一步了解“小聪”的诞生,智东西与少数媒体对搜狗AI交互技术部总经理陈伟的团队进行了采访,在探究“小聪”背后的技术新突破的同时,进一步挖掘搜狗对“小聪”未来的战略布局和构思。

一、手语主播的三大技术优势,表情唇动逼真丰富

何为搜狗分身技术?简单来看,该技术集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项AI技术。正是基于这项技术,搜狗才能让超写实3D数字人具备自然可懂的手语主播能力。

整体来看,“小聪”在数字人写实度、手语表达可懂度、手语展现接受度三大方面,都跃上了新的技术台阶。

1、超写实的逼真数字人效果

数字人写实度大幅提升的好处在于,它能显著提升手语播报带来的真实感与亲切感,进一步提高播报用户体验。

为此,“小聪”使用了行业最领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,能生产出高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

2、高可懂度的手语表达能力

手语有没有像自然语言一样有一套完整的语言体系?实际上,手语也有一套自己通用的词典。

“小聪”基于我国在2019年发布的《国家通用手语词典》,健听人只需输入日常生活中的语言文本,就能低延迟地生成高准确率的手语语言表征。同时,通过搜狗分身的多模态生成技术,系统能实时预测生成对应的超写实3D数字人驱动参数,并快速生成数字人手语播报视频。

陈伟谈到,“小聪”手语播报的可懂度在测评中达85%以上,能有效帮助听障者克服理解障碍,达成信息有效传递。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

3、高接受度的手语展现效果

作为一种视觉语言,手语表达不仅仅需要依靠手势,还需要配合面部表情、唇动、姿态等方式来传达更准确的意图,也称为“非手控信息”的表达。因此,除了高可懂度的手语表达能力之外,“小聪”的手语表达细节也十分真实丰富。

通过搜狗机器翻译,系统能生成覆盖手部动作、面部表情、口动唇动等多个维度的手语表征信息。同时,基于搜狗多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,从而实现自然、地道、接受度更高的手语表达效果。

基于搜狗分身技术,“小聪”还能实现快速生成和批量复制,成为全年无休的“劳模”,更好地帮助听障人士解决日常生活、公共服务、特殊教育等多个场景下的沟通不畅问题。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

二、面向2700万听障人群,手语合成背后的语言鸿沟

也许有人认为,现在的语音转文字技术如此成熟了,新闻、影视等作品都有字幕,为什么还要大费周章地开发手语AI合成主播技术?相比以往的AI合成主播,它的技术到底难在哪?

据世界卫生组织发布的数据,目前全球听力障碍人群高达4.66亿人,在我国则有2700万人。其中,受教育程度和了解健听人语言体系越来越高地主要集中在年轻听障人群中,还有不少中老年听障人士在学习上仍有难度。

“我国2700万听障人群的教育程度是参差不齐的,上了高中、大学的听障人仅占了很小的比例。”陈伟说,从学习角度来看,由于听障人士在听力上天生有障碍,少了一个能更快学习语言的因素。所以短期内,手语仍是听障人士主要的学习方式,更是他们主要的表达方式,难以被字幕所替代。

尽管也有一些电视节目能够提供手语解说,但多以正常语序编排,与手语的特殊表达结构不符,让大部分听障人士只能理解不到60%的内容。这就导致了许多听障人士无法常态化、高质量地接收信息,逐渐变得难以融入社会,最终成为被边缘化群体。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

与此同时,当搜狗联合新华社在2020年5月发布全球首个3D AI合成主播后,搜狗AI交互技术团队开始思考,自己在数字人方向上是否还能冲上更高的技术壁垒?同时又能找到有强烈需求的场景?

因此,一群对手语一窍不通的研发团队开始与许多听障人士进行探讨,尝试挖掘手语AI合成主播这条赛道更大的可能性,并在内部组建了一个除语言、产品、研发三大体系外的顾问团,包含中国聋人协会的专业人士、手语学校的老师,以及手语AI合成主播的真实用户——听障人士。

但AI合成主播技术深厚如搜狗,在面对手语合成技术这条新赛道上,也面临着不少挑战。

“我们最开始接触手语的时候发现,它跟我们之前了解的所有语言语种都不太一样,他是一个视觉语言,并不能直接用语音语言的方式去解决手语的事情。”一位参与研发的团队成员谈到,在手语语言体系的构建过程中,有三个最主要的难点:

1、手语语序结构独特,翻译难

手语的语序结构和汉语语言大有不同,例如汉语中的“猫追老鼠”,在手语表达中为“猫、老鼠、追”;“开车不准喝酒”在手语表达中为“开车、喝酒、不准”。

这些跟汉语语序表达的不同,使得研发团队难以直接采用原有的语料库和数据库进行算法训练。因此,搜狗专门建立了相应的语言规则尝试进行“汉语-手语”的语序转换,先将手语进行翻译后再给算法进行训练。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

2、词汇类型缺失,表达差异大

手语的词汇类型并不像汉语那么丰富,并没有量词、程度副词,更多是直接省略或是采用肢体语言来表达。例如汉语中的“我买两支铅笔、一本书”,在手语表达中为“我买铅笔、二、书、一”;“大雪纷飞”在手语表达中则是表达一个“雪”,然后在雪的基础上加大身体的摆动来体现程度副词。

因此在词汇方面,搜狗AI交互团队还建立了一个手语到汉语之间的映射词典,尝试去解决手语和汉语之间词汇上的差异问题。

3、特有非手控信息,需建立新表情库

汉语的博大精深在于,哪怕是同一句话,用不同音调或语气也能表达出不同信息,这让手语表达的难度系数大大提高。因此手语也有特有的非手控信息,通过不同的表情、口动、身体姿态等方式来传达信息。例如一句“我做的好不好”,皱眉时是询问的语气,挑眉时则是感叹的语气。

非手控信息也是搜狗AI交互团队在开发过程中遇到的最大难点,针对这一问题,搜狗目前正尝试通过建立数据库等规则方式来解决。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

三、技术难度系数增大,还需解决恐怖谷难题

值得注意的是,手语语言中的三大问题仅仅是语言体系建立方面的难点,具体落实到技术方面,搜狗也面临着不少挑战。

一是数据挑战。陈伟谈到,国内从来没有这样规模化地思考如何构建一个能让AI学习的手语大数据库,无论是数据体系的构建、标注的方法,以及如何找到手语专业老师帮助团队高效地推进研发, 这些对搜狗AI交互团队来说都是一个新的技术挑战。

二是算法挑战。无论是机器翻译还是数字人生成,搜狗都要面临更多机器语言特点的定制。以往搜狗做3D AI合成主播时一直在强调唇形、表情,但在手语AI合成主播上还需加上嘴形、表情、姿态和手部动作等维度,并保证在同一时间内完全对齐。

三是3D驱动挑战。手语表达的特殊性需要手语AI合成主播实现连续大幅手部动作的自然生成。基于此,搜狗通过3D建模技术结合AI实时驱动,大大提升手语AI合成主播动作的灵活性、可控性和连贯度,提升动作表达能力。

“我们也一直和顾问团保持非常紧密的联系和沟通,对专业人士和听障人士觉得手势、位置、运动等不标准的地方进行及时纠正,这样才能确保我们每一步的技术迭代都能时刻得到最真实的反馈。”陈伟谈到。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

当一个数字人无限接近真人时,不少细节容易让人感到害怕。例如有人认为,搜狗去年推出的3D数字人张嘴时,看不到声带或咽喉的共振,或是模型偶尔的穿模,这些都容易让人产生恐惧感。但如果将合成主播做成卡通形象,尽管能解决恐怖谷问题,但用户和数字人交互的亲切感、体验感也大大降低。

“当我看到一个数字人时没有产生恐怖谷效应,我会觉得我和数字人之间时有情感连接的,交流时就像是面对面的沟通。”陈伟提到,这也是搜狗做数字人的初衷。

为了减少“小聪”的恐怖谷效应,搜狗对“小聪”的皮肤材质、纹理、手势形状等渲染都进行了优化,写实度大大提高。“我们认为在未来一到两年的时间内,3D建模会突破恐怖谷效应。”陈伟说。

同时在他看来,真正让人觉得不恐怖的状态还需要在数字人的表达能力和对话能力上进行突破。“只有数字人或AI越来越像人的时候,人机交互的可能性才能做到真正的自然交互,才能实现人和数字人的情感连接。”陈伟解释,这也是搜狗坚定不移地把重心放在数字人超写实方面的原因。

揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”,搜狗分身技术是核心

四、今年Q4规模应用,手语AI合成主播的两大落地方向

现阶段,“小聪”手语AI合成主播从数据到算法,再到3D建模等工程化技术仍在持续地优化迭代。陈伟预计,到今年第四季度,“小聪”将真正实现规模应用。

在落地方面,“小聪”也将从实时场景和非实时场景两个方向落地。

在实时新闻信息、公共广播信息等实时场景方面,搜狗将考虑人机交互与多模态动作的结合,把手语放到人机交互的环境中,方便听障人士自主地与机器进行交流。

在偏文化娱乐和生活相关等非实时场景中,搜狗也将和更多电视媒体,以及对内容播报有强需求的团队合作,通过“小聪”将视频和文字内容视频化,让更多节目都能通过手语的方式进行信息传递,帮助听障人群更好地融入社会生活,同时也减轻传统手语老师的工作压力。

“我们希望通过聚焦数字人技术,让它为社会创造更大的价值。”陈伟谈到,这不仅是嘴形的播报,而是充分把数字人的灵活性、真实性、自然连贯的性能全部发挥出来,做出高品质且符合国家标准的手语表达技术,真正提高手语的普及力度和应用范围。

结语:搜狗AI合成主播打开行业创新突破口

作为我国AI合成主播的行业风向标,搜狗一直不断精进数字人技术,在增加机器的温度,拉近人机之间关系的同时,也帮助传统内容行业提高生产力和创新力。

这次搜狗将分身技术聚焦在更少数的听障人群,去挑战一个又一个新的技术难关,不仅让我们看到了搜狗攀爬技术壁垒的魄力,也看到了搜狗作为一家企业的社会责任感和担当,也是一次与弱势群体的共情。

也许对更大规模的健听人群来说,“小聪”的诞生对自己的生活并没有带来任何改变。但对我国那2700万听障人士而言,这也是他们能拉近与社会的距离,更轻松、更温暖地感受当下生活,甚至轻松走出国门的重要技术突破。