揭秘央视网新晋“虚拟小编”的诞生！集成大量AI技术，高精度3D人像建模

智东西（公众号：zhidxcom）
作者 | 韦世玮
编辑 | 漠影

数字虚拟人已逐渐成为全国两会上的常客。

相比以往虚拟人还停留在演播厅播报新闻，今年两会上有更多AI虚拟人走到台前，担任起了两会新闻报道采访的角色。

其中，央视网首次亮相了名为“小C”的数字虚拟小编，它以一头清爽干练的短发和高颜值示人，在“两会C+真探系列直播节目”中担任起了记者的角色，与梁倩娟、马慧娟等全国人大代表进行独家对话。

尽管小C是一个数字虚拟人，但它的发丝、肌肤毛孔、说话口型、微表情等细节都清晰可见，还能进行实时流畅互动，大大提升了采访的趣味性和新鲜感。

实际上，小C与全国人大代表们远程连线采访的实现，离不开百度智能云在背后的支持。

基于百度智能云的高精度数字人建模及AI驱动技术，百度的数字虚拟人不仅能掌握英语、法语、德语等多语种输入，还可支持完全拟人的微笑、眉眼及身体动作等。

为了更进一步了解数字虚拟小编的诞生，智东西与百度智能云相关技术人员进行了一场深度交流，在探寻虚拟小编背后的技术亮点的同时，也探讨了百度数字虚拟人技术未来的布局和落地思考。

一、三大硬核技术支持的“全能记者”

这并不是百度第一次推出数字虚拟人技术，也并非第一次登上两会的“舞台”。

早在2020年两会期间，百度智能云就与央视网打造了一个《对答如流·两会“智”通车》系统，人们能通过与AI主播小智的问答交流，了解和学习两会期间的国家战略和国计民生大事。

除此之外，百度智能云还曾与浦发银行联合开发了金融行业首个数字人员工“小浦”。在去年的百度世界大会上，百度还亮相了能歌善舞的虚拟助理“度晓晓”，以及全球首款具有认知能力、能够进行“机机对话”的终端虚拟人。

由此可见，百度在数字虚拟人领域早已积累了丰富的技术和落地经验。

揭秘央视网新晋“虚拟小编”的诞生！集成大量AI技术，高精度3D人像建模

▲虚拟AI助理“度晓晓”歌舞展示

但此次百度推出的数字虚拟小编与以往的虚拟人大有不同。

“三个人像的资产属性不同，驱动方式也会略有不同。”百度智能云相关技术人员解释，百度世界大会上的终端虚拟人是通过真人视频生成的2D技术，“度晓晓”虚拟助理则是一个3D卡通形象，而这次推出的虚拟小编采用的是3D高精技术，不管是口型预测还是人像驱动技术，相比前两类虚拟人难度更高、技术壁垒更大。

简单地说，数字虚拟小编拥有高精度写实、模型轻量灵活、驱动方式丰富多样三大技术优势。

1、高精度写实：4D扫描技术+高精度拟真3D人像技术

在前期数据采集阶段，百度智能云采用了4D扫描技术，能够采集大量高精度训练数据，并通过机器学习进行人像驱动绑定和反复迭代调优。

与此同时，基于百度智能云的影视级的高精拟真3D人像制作绑定技术，模型的面部面数至少有1万面，面部材质不仅十分接近真实皮肤的质感，还可以根据相机的距离进行自动优化调节。

此外，模型的全身多边形面数也至少达到10万面，头发面数至少有3万面，面部表情形变基（blendshapes/morph targets）个数至少有240个，身体骨骼节点数至少有100个。

这些技术大大地丰富了虚拟人的细节表现，让表情和身体动作更加地写实和生动。

揭秘央视网新晋“虚拟小编”的诞生！集成大量AI技术，高精度3D人像建模

2、模型轻量灵活：轻量级AI模型，逐字口型准确率超98.5%

虚拟小编采用了一个轻量级的深度神经网络模型，能够实现端到端的表情实时控制，其逐字口型准确率大于98.5%。

此外，虚拟小编还可支持数十种预置微笑、眉眼动作和预置身体动作，并且能根据需要定制增加新的预置动作。

值得一提的是，该模型还具有驱动渲染性能优异、连线延迟低、互动效果良好三大特点。

3、驱动方式丰富多样：文本/语音等多种驱动方式，支持多国语言

基于背后高精度的扫描和拟真3D人像技术，以及轻量级AI模型，虚拟小编可通过唇动预测、脸部预测和肢体预测相结合，支持灵活多样的驱动方式。

实际上，百度的这套数字虚拟人技术还拥有文本驱动、语音驱动、普通RGB摄像头面部驱动、深度摄像头面部采集驱动共四种驱动方式。

其中，文本驱动还支持中英文输入，以及文本转合成语音驱动，在文字输入中还可以插入表情、动作控制命令语音驱动。

与此同时，该技术还支持真人声音和合成声音输入，并“掌握”多国语言，支持汉语、英语、法语、德语、俄语、日语、韩语、西班牙语等多语种输入。

揭秘央视网新晋“虚拟小编”的诞生！集成大量AI技术，高精度3D人像建模

二、推动各行各业打造IP化，打造新的内容运营方式

事实上，百度智能云的数字虚拟人是一项可以贯穿各行各业的技术。

百度智能云相关技术人员谈到，得益于它背后全方位的多模态AI技术，数字虚拟人不仅能应用在传媒领域，成为一名“虚拟小编”，它还可以在教育行业当一名“虚拟教师”，或是进入文娱行业成为“虚拟偶像”，实现覆盖教育、娱乐、政务金融等领域的布局。

“这就意味着，百度数字虚拟人不只是一项技术，更代表了一种内容生产。”在百度智能云相关技术人员看来，随着当下社会的流量化，流量和人设已逐渐成为每一个IP的关键。

与此同时，未来包括央视网在内各大平台的受众，也将从原来的50后至80后，逐渐以90后和00后为主。“经过我们的调研，00后的口味更倾向于虚拟化或是二次元形象。”他提到。

在这些趋势下，用虚拟人来“造”流量明星或网红IP，不仅能大大地降低成本，也能为行业带来更多选择。

揭秘央视网新晋“虚拟小编”的诞生！集成大量AI技术，高精度3D人像建模

尤其对传统媒体来说，如何持续跟进新的技术和运营方式，也是保持创新活力的关键。

百度智能云相关技术人员认为，数字虚拟人技术一方面能够帮助这些企业利用多种技术手段，实现内容化运营；另一方面，它也可辅以互联网的方式不断得到受众反馈，帮助企业实现持续的迭代化运营。

因此对媒体而言，将这项数字虚拟人技术应用在远程连线采访中，既解决了疫情期间面对面采访的不便，同时又能通过形象IP化提升采访的趣味性和新鲜感，以探索出一种全新的两会报道模式。

“随着如今网络带宽越来越大，通过数字虚拟人技术来打造可视化IP，也是每一个行业发展的必然趋势。”在百度智能云相关技术人员看来，语音和文字内容的可视化发展，不仅能为各行各业带来创新的内容运营方式，也将为受众带来更丰富的内容信息量，提供更便捷的信息获取方式。

“更重要的是，数字虚拟人技术能为用户带来看得见、有温度的交互体验。”他说，这是从前简单的语音或文字获取机器人技术难以比拟的。

三、技术与运营双轮驱动，探索更智能和个性化的未来

从2017年底立项至今，百度的高精3D数字人产品已历经三年多发展，团队规模达百人级别。

百度智能云相关技术人员谈到，这项数字虚拟人技术也仍在持续进行迭代和更新，未来将沿着技术和运营两个层面发展。

从技术层面看，百度数字虚拟人的基础技术、渲染成本，以及数据积累和模型都将不断地向前演进。

一是基础技术，包括多模态AI技术、NLP（自然语言处理）和语音识别等技术都会继续优化迭代，同时语音合成的逼真度也会越来越高，甚至合成出具有个性化的声音；

二是渲染成本，相对友商们来说，随着软硬件能力的提升，百度高精3D数字虚拟人的渲染成本会越来越低，渲染能力和水平也将呈几何级提高，虚拟人像的精细度也将越来越高；

三是数据积累和模型，“我们之所以能做出比友商好的口型预测和驱动能力，是因为我们投入了大量成本去进行口型数据和人脸数据标注，以及动作预测数据的采集。”百度智能云相关技术人员说，基于这些数据的不断积累，数字虚拟人在未来也将得到更好的AI模型。

从产品和运营层面看，这个数字虚拟人的形象选择和个性化素材也会越来越丰富，包括服装、饰品、发型发色等。

“随着这些素材的不断积累，我们运营的空间也会越来越大，从而有效降低运营成本。”他说。

当然除了形象之外，数字虚拟人的行为动作也会更加丰富和自然。目前，数字虚拟人的动作主要通过两个方式获取，一是通过AI预测，二是通过动作捕捉技术来打点获取。

但随着研发团队对算法的持续开发和迭代，未来数字虚拟人的动作和环境互动会更多依靠AI模型来实现，需要通过动捕技术获取的动作会越来越少。

与此同时，随着数字虚拟人智能化和个性化的不断提高，这项技术在未来也有着不少落地方向。

在百度智能云相关技术人员看来，目前人们移动设备中的语音助理并没有一个鲜明的形象，如果将Siri等语音助理做成可视化的模型，应用在手机、电视等更多智能设备中，能够为用户带来更有温度的使用体验。

结语：加速虚拟人与人类协同发展的未来

不知不觉间，越来越多的数字虚拟人逐渐走进社会的各个环节，通过不同的形象、性格、功能给大家习以为常的工作和生活带来更新鲜、更具温度的体验。

这得益于整个行业对数字虚拟人技术的一次次创新和推动，以及玩家们不断尝试打破技术疆界，促进技术融合的尝试，而百度作为其中的重要玩家，也正努力地朝着智能化、个性化的路径发展，用技术为各行各业实现创新赋能。

未来，如果当数字虚拟人技术走入寻常百姓家，成为每一个人得力的智能助手，你的数字虚拟人又会是什么样的形象？

一、三大硬核技术支持的“全能记者”

二、推动各行各业打造IP化，打造新的内容运营方式

三、技术与运营双轮驱动，探索更智能和个性化的未来

结语：加速虚拟人与人类协同发展的未来

相关推荐