揭秘央视网新晋“虚拟小编”的诞生!集成大量AI技术,高精度3D人像建模

智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 漠影

数字虚拟人已逐渐成为全国两会上的常客。

相比以往虚拟人还停留在演播厅播报新闻,今年两会上有更多AI虚拟人走到台前,担任起了两会新闻报道采访的角色。

其中,央视网首次亮相了名为“小C”的数字虚拟小编,它以一头清爽干练的短发和高颜值示人,在“两会C+真探系列直播节目”中担任起了记者的角色,与梁倩娟、马慧娟等全国人大代表进行独家对话。

尽管小C是一个数字虚拟人,但它的发丝、肌肤毛孔、说话口型、微表情等细节都清晰可见,还能进行实时流畅互动,大大提升了采访的趣味性和新鲜感。

实际上,小C与全国人大代表们远程连线采访的实现,离不开百度智能云在背后的支持。

基于百度智能云的高精度数字人建模及AI驱动技术,百度的数字虚拟人不仅能掌握英语、法语、德语等多语种输入,还可支持完全拟人的微笑、眉眼及身体动作等。

为了更进一步了解数字虚拟小编的诞生,智东西与百度智能云相关技术人员进行了一场深度交流,在探寻虚拟小编背后的技术亮点的同时,也探讨了百度数字虚拟人技术未来的布局和落地思考。

一、三大硬核技术支持的“全能记者”

这并不是百度第一次推出数字虚拟人技术,也并非第一次登上两会的“舞台”。

早在2020年两会期间,百度智能云就与央视网打造了一个《对答如流·两会“智”通车》系统,人们能通过与AI主播小智的问答交流,了解和学习两会期间的国家战略和国计民生大事。

除此之外,百度智能云还曾与浦发银行联合开发了金融行业首个数字人员工“小浦”。在去年的百度世界大会上,百度还亮相了能歌善舞的虚拟助理“度晓晓”,以及全球首款具有认知能力、能够进行“机机对话”的终端虚拟人。

由此可见,百度在数字虚拟人领域早已积累了丰富的技术和落地经验。

揭秘央视网新晋“虚拟小编”的诞生!集成大量AI技术,高精度3D人像建模

▲虚拟AI助理“度晓晓”歌舞展示

但此次百度推出的数字虚拟小编与以往的虚拟人大有不同。

“三个人像的资产属性不同,驱动方式也会略有不同。”百度智能云相关技术人员解释,百度世界大会上的终端虚拟人是通过真人视频生成的2D技术,“度晓晓”虚拟助理则是一个3D卡通形象,而这次推出的虚拟小编采用的是3D高精技术,不管是口型预测还是人像驱动技术,相比前两类虚拟人难度更高、技术壁垒更大。

简单地说,数字虚拟小编拥有高精度写实、模型轻量灵活、驱动方式丰富多样三大技术优势。

1、高精度写实:4D扫描技术+高精度拟真3D人像技术

在前期数据采集阶段,百度智能云采用了4D扫描技术,能够采集大量高精度训练数据,并通过机器学习进行人像驱动绑定和反复迭代调优。

与此同时,基于百度智能云的影视级的高精拟真3D人像制作绑定技术,模型的面部面数至少有1万面,面部材质不仅十分接近真实皮肤的质感,还可以根据相机的距离进行自动优化调节。

此外,模型的全身多边形面数也至少达到10万面,头发面数至少有3万面,面部表情形变基(blendshapes/morph targets)个数至少有240个,身体骨骼节点数至少有100个。

这些技术大大地丰富了虚拟人的细节表现,让表情和身体动作更加地写实和生动。

揭秘央视网新晋“虚拟小编”的诞生!集成大量AI技术,高精度3D人像建模

2、模型轻量灵活:轻量级AI模型,逐字口型准确率超98.5%

虚拟小编采用了一个轻量级的深度神经网络模型,能够实现端到端的表情实时控制,其逐字口型准确率大于98.5%。

此外,虚拟小编还可支持数十种预置微笑、眉眼动作和预置身体动作,并且能根据需要定制增加新的预置动作。

值得一提的是,该模型还具有驱动渲染性能优异、连线延迟低、互动效果良好三大特点。

3、驱动方式丰富多样:文本/语音等多种驱动方式,支持多国语言

基于背后高精度的扫描和拟真3D人像技术,以及轻量级AI模型,虚拟小编可通过唇动预测、脸部预测和肢体预测相结合,支持灵活多样的驱动方式。

实际上,百度的这套数字虚拟人技术还拥有文本驱动、语音驱动、普通RGB摄像头面部驱动、深度摄像头面部采集驱动共四种驱动方式。

其中,文本驱动还支持中英文输入,以及文本转合成语音驱动,在文字输入中还可以插入表情、动作控制命令语音驱动。

与此同时,该技术还支持真人声音和合成声音输入,并“掌握”多国语言,支持汉语、英语、法语、德语、俄语、日语、韩语、西班牙语等多语种输入。

揭秘央视网新晋“虚拟小编”的诞生!集成大量AI技术,高精度3D人像建模

二、推动各行各业打造IP化,打造新的内容运营方式

事实上,百度智能云的数字虚拟人是一项可以贯穿各行各业的技术。

百度智能云相关技术人员谈到,得益于它背后全方位的多模态AI技术,数字虚拟人不仅能应用在传媒领域,成为一名“虚拟小编”,它还可以在教育行业当一名“虚拟教师”,或是进入文娱行业成为“虚拟偶像”,实现覆盖教育、娱乐、政务金融等领域的布局。

“这就意味着,百度数字虚拟人不只是一项技术,更代表了一种内容生产。”在百度智能云相关技术人员看来,随着当下社会的流量化,流量和人设已逐渐成为每一个IP的关键。

与此同时,未来包括央视网在内各大平台的受众,也将从原来的50后至80后,逐渐以90后和00后为主。“经过我们的调研,00后的口味更倾向于虚拟化或是二次元形象。”他提到。

在这些趋势下,用虚拟人来“造”流量明星或网红IP,不仅能大大地降低成本,也能为行业带来更多选择。

揭秘央视网新晋“虚拟小编”的诞生!集成大量AI技术,高精度3D人像建模

尤其对传统媒体来说,如何持续跟进新的技术和运营方式,也是保持创新活力的关键。

百度智能云相关技术人员认为,数字虚拟人技术一方面能够帮助这些企业利用多种技术手段,实现内容化运营;另一方面,它也可辅以互联网的方式不断得到受众反馈,帮助企业实现持续的迭代化运营。

因此对媒体而言,将这项数字虚拟人技术应用在远程连线采访中,既解决了疫情期间面对面采访的不便,同时又能通过形象IP化提升采访的趣味性和新鲜感,以探索出一种全新的两会报道模式。

“随着如今网络带宽越来越大,通过数字虚拟人技术来打造可视化IP,也是每一个行业发展的必然趋势。”在百度智能云相关技术人员看来,语音和文字内容的可视化发展,不仅能为各行各业带来创新的内容运营方式,也将为受众带来更丰富的内容信息量,提供更便捷的信息获取方式。

“更重要的是,数字虚拟人技术能为用户带来看得见、有温度的交互体验。”他说,这是从前简单的语音或文字获取机器人技术难以比拟的。

三、技术与运营双轮驱动,探索更智能和个性化的未来

从2017年底立项至今,百度的高精3D数字人产品已历经三年多发展,团队规模达百人级别。

百度智能云相关技术人员谈到,这项数字虚拟人技术也仍在持续进行迭代和更新,未来将沿着技术和运营两个层面发展。

从技术层面看,百度数字虚拟人的基础技术、渲染成本,以及数据积累和模型都将不断地向前演进。

一是基础技术,包括多模态AI技术、NLP(自然语言处理)和语音识别等技术都会继续优化迭代,同时语音合成的逼真度也会越来越高,甚至合成出具有个性化的声音;

二是渲染成本,相对友商们来说,随着软硬件能力的提升,百度高精3D数字虚拟人的渲染成本会越来越低,渲染能力和水平也将呈几何级提高,虚拟人像的精细度也将越来越高;

三是数据积累和模型,“我们之所以能做出比友商好的口型预测和驱动能力,是因为我们投入了大量成本去进行口型数据和人脸数据标注,以及动作预测数据的采集。”百度智能云相关技术人员说,基于这些数据的不断积累,数字虚拟人在未来也将得到更好的AI模型。

从产品和运营层面看,这个数字虚拟人的形象选择和个性化素材也会越来越丰富,包括服装、饰品、发型发色等。

“随着这些素材的不断积累,我们运营的空间也会越来越大,从而有效降低运营成本。”他说。

当然除了形象之外,数字虚拟人的行为动作也会更加丰富和自然。目前,数字虚拟人的动作主要通过两个方式获取,一是通过AI预测,二是通过动作捕捉技术来打点获取。

但随着研发团队对算法的持续开发和迭代,未来数字虚拟人的动作和环境互动会更多依靠AI模型来实现,需要通过动捕技术获取的动作会越来越少。

与此同时,随着数字虚拟人智能化和个性化的不断提高,这项技术在未来也有着不少落地方向。

在百度智能云相关技术人员看来,目前人们移动设备中的语音助理并没有一个鲜明的形象,如果将Siri等语音助理做成可视化的模型,应用在手机、电视等更多智能设备中,能够为用户带来更有温度的使用体验。

结语:加速虚拟人与人类协同发展的未来

不知不觉间,越来越多的数字虚拟人逐渐走进社会的各个环节,通过不同的形象、性格、功能给大家习以为常的工作和生活带来更新鲜、更具温度的体验。

这得益于整个行业对数字虚拟人技术的一次次创新和推动,以及玩家们不断尝试打破技术疆界,促进技术融合的尝试,而百度作为其中的重要玩家,也正努力地朝着智能化、个性化的路径发展,用技术为各行各业实现创新赋能。

未来,如果当数字虚拟人技术走入寻常百姓家,成为每一个人得力的智能助手,你的数字虚拟人又会是什么样的形象?