最快5分钟偷“声”换日！Facebook用AI玩起假唱

智东西（公众号：zhidxcom）
编 | 王颖

导语：Facebook研发出可以转换歌声的AI模型，能在5~30分钟将一个歌手的声音转换成另一个歌手的声音。

智东西4月17日消息，Facebook AI研究院和以色列特拉维夫大学的科学家们发表了一篇关于转换歌手歌声的论文——《无监督的歌声转换》（Unsupervised Singing Voice Conversion）。

这篇论文描述了一种可以直接将一个歌手的声音转换成另一个歌手声音的系统。这个系统能够对以前对未遇到过的，未分类、未注释的数据执行转换。

研究小组称，他们的模型仅用5到30分钟就能学会歌手之间的转换。

最快5分钟偷“声”换日！Facebook用AI玩起假唱

一、AI模型如何转换歌声？

这个AI模型分两个阶段进行培训。首先对每个歌手的样本分别应用一个称为softmax重构损失的数学函数（将神经网络得到的多个值，进行归一化处理，使得到的值在[0,1]之间，让结果变得可解释。即可以将结果看作是概率，某个类别概率越大，将样本归为该类别的可能性也就越高）。

然后混合矢量嵌入（即数值表示）得到新歌手的样本，训练歌手的样本生成后再进行反向翻译步骤。

为了扩充训练数据集，研究人员通过倒向播和改变相位来转换音频剪辑。这种方法将数据集的大小增加了四倍。第一次增加的数据创造出了一首胡言乱语的歌曲，但仍然可以识别为同一名歌手所演唱，第二次增加的数据创造了一个已无法辨认歌手的新歌曲。

论文作者表示：“我们的方法不以文本或音符为条件，不需要各种歌手之间的平行训练数据，提供了一定的灵活性以及其他声音特征，可以让我们有能力从自己声音的某些局限中解放出来。”

研究人员介绍，他们的转换方法建立在WaveNet的基础上，这是一种谷歌开发的自动编码器（一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，同时用学习到的新特征可以重构出原始输入数据），可以从音频记录的波形中生成模型。

它采用了反向翻译，即将一个数据样本转换为目标样本（在这种情况下，一个歌手的声音转换为另一个），然后将其翻译回来，如果与原文不匹配，则调整下一次尝试。

此外，该研究小组的合成样本，在不输入歌手真实信息的情况下，能够使用更接近源歌手的声音信息，构成一个“虚拟身份”。

在实验中，研究小组收集了两组公开的数据集——斯坦福大学的移动表演数字档案馆（DAMP）语料库和新加坡国立大学的成语和口语语料库（NUS-48E）。

第一组中，他们随机选择了5名歌手演唱的10首歌（其中9首被他们用来训练AI系统）。第二组中，他们选择了12名歌手，每名歌手有4首歌，所有这些歌曲都被用于训练系统。

接下来，他们让人类评审员以1-5的评分标准来判断生成的歌声与目标歌声的相似性，并使用一个包含分类系统的自动测试来更客观地评估样本的质量。

评审员对转换后的音频平均打分约为4分（认为质量较好），而自动测试发现，所生成样本的识别精度度几乎与重建样本的识别精度一样高。

研究人员表示，未来AI歌声转换模型将可以在存在背景音乐的情况下执行歌声转换。

自1956年AI的概念确立以来，人类一直在这个领域进行不断的探索。

如今，AI在基础研究和技术产业方面都进入了高速发展时期，也开始越来越多的应用于日常生活和工作的各个方面。不断出现的各种AI机器学习模型被应用于医疗、建筑和艺术等各个领域。

AI正在作为新一轮产业革命的核心驱动力，不断催生新技术、新产品的诞生。

论文链接：https://arxiv.org/abs/1904.06590

原文来自：VentureBeat