快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

智东西（公众号：zhidxcom）
编辑 | GTIC

智东西4月13日报道，在刚刚落幕的GTIC 2023中国AIGC创新峰会上，快手MMU自然语言处理中心、音频中心负责人张富峥进行了主题为《AIGC在快手的探索和应用》的演讲。

短视频场景存在包括短视频、直播、商业化广告、电商商品在内的海量复杂内容形态，对AIGC技术有广泛的需求。

快手MMU自然语言处理中心、音频中心负责人张富峥通过演示AI生成数字人、智能音乐生成、一键成片的最新案例，分享了快手在AIGC的探索和应用。

张富峥说：“AIGC基于创作者的想法来进行内容输入，再通过AI技术合成内容。”快手通过平台引擎、基础设施、AI原子能力、AIGC解决方案、落地场景等多方面布局了AIGC。

据张富峥介绍，在数字人的应用中，用户只用简单输入文字，5分钟内就能生成具备精确口型、丰富表情/动作的专属数字人，能用于知识分享、电商带货、行业招聘等多个场景。

在智能音乐方面，用户可以输入指定的主题词等信息，AI就能生成押韵且与主题词相关的歌词、旋律，AI歌手等应用也已接近真人的歌唱水平。

在视频制作方面，快手旗下视频软件快影的“一键成片”功能日均消费量超4.5亿，文案成片日均作品消费量超4000万。

以下为张富峥的演讲实录：

大家上午好！我是张富峥。

非常感谢主办方邀请我来跟大家做分享，前面的老师和嘉宾也讲到行业上最近确实出现了很多颠覆性的变化与进展，无论是文本大模型、多模态大模型，还是以此催生出来的最近的AIGC浪潮，都确确实实给技术行业包括工业界带来了非常多的变化。

在这个进程中，快手作为一家短视频公司，我们也一直在做相关的研发和响应的业务应用。今天非常荣幸在这里跟大家分享AIGC在快手里有哪些阶段性的成果。快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

首先，跟大家简单介绍一下AIGC的概念，AIGC本质上基于底层的文本大模型或是多模态大模型，能用AI的方式自动生成各式各样的内容，包括文字内容、图片内容、语言内容、多模态视频内容等，这些内容的生成方式可能与传统的UGC（用户生成内容）或是专业的PGC（专业生成内容）相比，确实能做得很好。

以前的任何一种方式很难在成本和质量之间做到兼顾，要么是质量很高的PGC，但是成本难以接受，能产生的影响相对来说较小，也只有非常头部的机构才能去制作这些高质量的内容。

在移动互联网时代，网络信息中有很多的UGC内容，这些UGC内容的覆盖面非常广，量也足够多，但是很多场合下的质量不够高。所以通过AIGC方式，无论是ChatGPT还是大家目前所看到的各种以文生图的方式，能生成很多质量非常高的图片，再加上完全自动化的机器生成方式，我们能在质量和成本之间做到同时兼顾。这也证明AIGC确实蕴含着巨大的机会。

快手在整个AIGC从赛道上会有很多的布局，我们可以看到，无论是AIGC的能力，还是大语言模型的能力，本质上是一系列工作的整合，从底层的训练平台、云原生服务架构，再往上会有更多的基础设施，以及AI原子能力和AIGC解决方案，比如视频创作、智能音乐生成、虚拟人等等。

有了这些AIGC解决能力之后，我们就能更好地服务各个应用场景，包括快手内部帮助内容生产者制造出更好的视频内容，帮助电商场景更好地进行主播带货等等。

今天我主要跟大家分享快手在AIGC领域的3个阶段性成果：数字人、智能音乐和视频生成。

一、数字人：模拟人类表情神态，适用于知识分享、直播带货等场景

第一个是数字人的场景。

数字人是通过机器产生人格化的内容表达的典型应用，我们知道，真人主播在很多场景下还是会有门槛，比如主播的时间、主播的表达方式等，对于很多商家和个人创作者而言，它都有一个进入门槛。我们希望通过数字人的方式，帮助商家去更好地创作视频，包括直播的内容等。

大家可以看我们现在应用的例子，主要包括知识类、招聘类和电商类三种数字人主播。

快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

知识类数字人主播能为用户介绍知识类视频，此外，快手短视频中有很多招聘的业务场景，招聘类数字人主播可以满足大量的用工需求，找到相应的求职者。在招聘场景中，真人主播的数量是远远不够的，数字人主播就能帮助求职者和企业之间进行很好的连接。

另外一个是非常典型的电商场景，数字人主播能详细介绍商品内容，还具备实时互动的能力，能够观众进行交互。

数字人主播呈现出来的效果代表着非常典型的AIGC能力，有表情、动作的驱动，这种驱动本质上就是从输入的文字信息去生成图片信息的方式。这其中也包括剧本创作，创作者、商家甚至不需要向数字人提供文案，只用告诉几个关键词，它就能写一段商品介绍，还能根据剧本创作的方式输出内容，包括智能交互、画面渲染、语言合成等AIGC相关技术。

接下来我主要和大家分享表情生成这个模块。

大家可以看到，表情生成的技术就是要通过文本去生成虚拟人、数字人的图像，而且这种图像还要能随着视频流的推进，自然得像真实的人类主播一样，嘴型、面部表情能动起来，而这其中有非常多的技术挑战。

快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

挑战之一是我们的录制数据量少。这和大模型一样需要以预训练作为技术底座，用海量数据来训练一个高质量的模型，再根据具体的业务场景需求来进行微调，以达到一个比较好的效果状态。其中还包括一些实时性，整体上要保证快速交付，以天级别来完成数字主播的复刻，并保证数字人的形象、动作、语音都属于比较自然的状态。

目前数字人已有不少进展。核心亮点在于我们能提供不同的需求场景，分为大众化和专业定制两种版本，适配不同类型的用户。对于大众化的版本，如果用户对于质量要求不算特别高、不是一点小瑕疵都不能接受的话，就仅仅只需要拍摄五分钟的素材，就能根据素材来自定义自己的数字人主播。即使是特定的专业场景，也只需要20分钟来生成高质量的数字人主播。

这些技术已经应用到快手的各个场景当中，比如知识类主播、电商、招聘场景等都已经广泛应用。

二、智能音乐：歌词、旋律自动生成，AI歌手仿真演唱

下面主要跟大家分享一下AIGC智能音乐的创作。

对于一家短视频公司而言，音乐是很重要的一个部分。当前音乐行业的典型制作流程非常流水线化，里面包含很多个模块，比如音乐人最开始有自己的动机，这种动机包括它脑海中想到的旋律、节奏或是这个音乐应该表达出来的情绪。用这种原始的想法来进行一些专业的分工，比如作词人怎么根据情绪、节奏来做一首合适的歌词，作曲人怎么根据歌词、节奏旋律来编曲，还包括后面的混录等等，整个流程都非常的流水线化。

其中的很多环节都可以通过AI来帮助创作者去提高效率，甚至在场景下实现完全自动化。歌词可以用AIGC来自动生成，我们只需要给它输入指定信息，如这首歌的歌名、主题等。它最后生成的歌词还能满足歌词中的很多限制，比如最后一个词需要满足押韵的条件，通过AIGC技术能够很好地实现这样的效果。

那整个歌词生成技术的细节，要通过什么样的AI技术可以达到效果呢？

快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

我们使用的是类似大模型的方式。虽然目前阶段没有到千亿以上的这种规模，但是已经可以通过类似方式，通过海量数据获取、多阶段预训练和微调模式来这些技术。其中，包括歌词领域中很多限制类知识我们也添加了进去，通过Transformer去把歌词一个一个的产生出来。

音乐制作除了制作歌词，还需要制作旋律，而且旋律在其中尤为关键。

所谓旋律，按照自然语言的思路来看，其本质上也是一种序列，只是序列中有特定的高低音关系和节奏关系，每个歌词由音高和音低的组合，使得大家听上去能感受到一种旋律的节奏信息。

我在这里举两个通过AIGC生成的节奏的例子。通过输入慢节奏关键词来生成一段旋律时，旋律是比较舒缓地，当输入快节奏的关键词，它又能生成节奏更加快的旋律。当然，当我们给它更多的关键词时，它又能生成更加复杂的、符合用户需求的旋律。

整个旋律生成的技术框架本质上其实和歌词生成很类似，只是输入和模型的细节会有很多不同。怎么得到一段旋律？有很多种方式，识别、转录已有的曲谱等就能得到旋律的数据信息。

快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

快手有个典型例子，通过旋律生成、歌词生成，最后让专业的歌手来演唱这首歌。我们输入了主题信息，然后它输出对应的歌词，有了这些歌词之后再找到一个真实的专业歌手来演唱，之后再进一步基于这个演唱来改写旋律。最终得到的成品是由AI生成的歌词和旋律，但是是由专业歌手唱出来的。

唱歌其实本身也是一件有高门槛的事情，要求人有很高的天赋。我们也希望让AI歌手来唱歌，并在很多场景中帮助到我们的专业歌手，还要能为用户在真实的短视频创作中提供帮助。AI歌手的技术也是输入歌词和旋律信息之后，用AI的方式去产生歌手的合成声音。

这里也可以举个例子。快手内部的AI歌手张凤琴，她有自己极具代表性的两首歌，一首是古典的、慢节奏的舒缓风歌曲，另一首则更加现代，节奏比较快。

歌唱合成技术的技术底座也是通过类似序列生成的方式产生的，只是在声学模型中要更加复杂一些，我们输入歌词及旋律，通过声学模型得到一些更符合真人歌唱的特征，基于这些特征，通过解码器、编码器将AI的声音用语音合成的方式生产出来。

三、一键成片、文字成片：分享生活场景，用户创作量高达百万

第三部分，想和大家分享一下视频创作。

视频创作对于快手这样的短视频公司确实是非常关键的。我们也有一些阶段性的进展。目前的视频创作方式还不是每个画面、视频流都完全用AI图片来生成的，我们现在的技术是通过找到一些匹配的图片并将它们连接起来，串联成为一个视频。

第一个场景是一键成片功能，这是在我们的APP快影中上线的一个功能，用户可以选择自己相册中的几张相片，点击一键成片功能，生成右边这样的结果。一键成片还能把不同的图片关联起来，生成与之相对应的音乐，能满足用户对于这些场景的创作需求。这个功能上线之后，很多用户都在使用，每天的作品创作数都在百万以上，日均消费量4.5亿以上。

快手张富峥：AIGC助视频创作者生产力爆发，详解三大应用场景丨GTIC 2023

文案成片功能比上一个功能还要再更进一步。

前面的功能还需要用户自己选一些特定的图片，文案成片只需要用户告诉它一些文字信息，来表达自己当前的思想、情感，它就能帮用户创作出来与之匹配的视频。文案成片这个功能每天的作品量在10万以上，每天消费量在4千万以上。

通过这些方式，能帮助快手这样一家短视频公司更好地去服务创作者，服务消费者。

我和大家分享的内容到此结束，谢谢大家！

以上是张富峥演讲内容的完整整理。

一、数字人：模拟人类表情神态，适用于知识分享、直播带货等场景

二、智能音乐：歌词、旋律自动生成，AI歌手仿真演唱

三、一键成片、文字成片：分享生活场景，用户创作量高达百万

相关推荐