智东西(公众号:zhidxcom)
编 | 王小溪

导语:OpenAI公司开发了一种音乐AI系统MuseNet,能用十种乐器生成歌曲,而且能融合不同种曲风。

智东西4月26日消息,刚在《Dota 2》中大虐人类的Open AI,又开始跨界踏足音乐圈啦!今天,它在一篇博文中详细介绍了人工智能系统MuseNet,它用十种的乐器生成了四分钟的乐曲,而且曲子风格多样,能听出乡村风、和莫扎特、披头士乐队的曲风。

MuseNet没有像人们理解的那样对乐曲编程,而是通过学习预测数百个成千上万的MIDI文件中的tokens来发现和声、节奏和乐曲风格的模式。

关于MuseNet的更多信息可参见OpenAI的博文:

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

一、MuseNet如何生成乐曲?

MuseNet没有像人们理解的那样对乐曲编程,而是通过学习预测数百个成千上万的MIDI文件中的tokens来发现和声、节奏和乐曲风格的模式。tokens有两种类型,一种作用于作曲家,一种作用于乐器。

Payne解释说,这些token类型可以更好地控制MuseNet所生成的样本种类。在训练过程中,token被添加到每个音乐样本之前,以便MuseNet学习如何使用它们来做出音符预测。

MuseNet接受了来自各种不同来源的MIDI音乐标准格式的样本训练,包括ClassicalArchives、BitMidi和开源Maestro语料库。

MuseNet重新计算和优化了稀疏Transformer,训练了24个attention head的72层网络,内含共有4096个token,让生成音乐的时长可达到4分钟。

Transformer在顺序数据上进行训练:技术人员给定一组音符,要求MuseNet预测接下来的音符。他们尝试了几种不同的方法将MIDI文件编码为适合此任务的token。首先,采用了弦乐方法,将每次听到的音符组合视为单独的“和弦”,并为每个和弦分配一个token。其次,他们尝试通过仅关注音符的开头来缩小音乐模式,并尝试使用字节对编码方案进一步压缩。

技术人员还尝试了两种不同方法标记时间推移:第一,根据音频节奏缩放token(以便token代表一个音乐节拍或节拍的一小部分);第二,标记以秒为单位的绝对时间token。

最终,他们采用了一种结合了表现力和简洁性的编码:将音高,音量和乐器信息组合成一个token。

在训练中,他们选择:

首先,调高、调低音调来调换样本;

然后,调高或调低各种样本的整体音量;

最后,稍微减慢或加快音频片段的速度。

二、MuseNet可以换大不同类型的曲风

正如OpenAI的技术人员Christine Payne在一篇博客文章中所解释的那样,MuseNet与所有的深度神经网络一样,包含了在相互连接的层中排列的神经元(数学函数,松散地模仿生物神经元)里,从输入数据中传输“信号”,并缓慢调整每个连接的突触。

但独特的是,MuseNet拥有注意力机制。注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息。所以在MuseNet模型中,每个输出元素都连接每个输入元素,它们之间的突触是动态计算的。

MuseNet使用的是与GPT-2相同的通用无监督技术。GPT-2是OpenAI推出的一个大规模的无监督语言模型,它具有来自800万个网页的15亿数据集,其训练目标就是基于前面给定的文本,从而预测接下来的文字。

MuseNet有不同的模式:简单模式,用户可以从“作曲家”或“风格”中选择未经过调整的样本,然后开始生成。高级模式,它可以让用户直接与模型交互,创建出一个全新的作品。

在生成乐曲时,用户可以调整模型用选定的风格创建样本,这种风格可以从拉赫玛尼诺夫钢琴、乐队Journey的钢琴开始,也可以从贝司、吉他和鼓开始。

Payne 说:“由于MuseNet包含了许多不同的风格,我们可以用新颖的方式对它们进行融合,例如,给模型肖邦夜曲的前六个音符,要求它生成流行乐曲风格的钢琴、鼓、贝司和吉他曲, 它也能做到。”

Payne也指出,MuseNet并不完美,因为它是通过从所有可能的音符和乐器中计算概率来生成每个音符,偶尔它会做出不和谐的选择。可以预见的是,如果曲风和乐器不搭,比如肖邦的低音和鼓,它很难将两者融合在一起。

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

▲MuseNet对作曲家的理解以及他们如何和风格相联系

三、全新Demo,让你自选音乐风格

MuseNet的博文上还提供一个Demo,供感兴趣者试用。

首先,选择你更感兴趣的音乐风格(从上到下依次是:肖邦、莫扎特、拉赫曼尼诺夫、Lady Gaga、乡村音乐和迪士尼音乐)。

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

接下来,选择开始的旋律,这里Demo为试用者提供了6种选项。

如果选择NONE,AI就会看心情随便给你来个开头,如果选择了其他的歌(莫扎特的《土耳其进行曲》,贝多芬的《第五交响曲》,Lady Gaga的《Poker Face》,贝多芬的《致爱丽丝》,阿黛尔的《Someone Like You》),AI就会按照你所选的歌的风格续写音乐。

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

最后,点击下面的 → ,让AI生成一段音乐。

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

黑色背景上紫色横条的图样是曲谱,箭头左边的一块谱子是你所选择的开始的旋律,图上每一根小横条代表一个音符,点击 → 后右边出现的一长串紫色就是AI生成的音乐,点击PLAY FROM START就可以开始播放啦~

OpenAI让AI神作曲!多种风格随意选,莫扎特Lady Gaga玩混搭

如果你喜欢AI的创作,可以点击DOWNLOAD下载保存;如果想重玩一次,就选择RESET。当然啦,你还可以把AI的作品分享到推特。

如果你想听现场freestyle,还可以点击曲谱上方的SHOW ADVANCED SETTINGS,有更多的音乐风格、开头音乐和乐器供你选择,通过选择TOKENS来生成不同长度的音乐,然后,你就可以享受AI的现场版了。

不过,这个Demo暂时还不完美,假使你选择钢琴、吉他或鼓的音色,生成的音乐可能听起来音色都差不多。

OpenAI表示,这一Demo会展示到5月12号,之后会有一个迭代的版本。

结语:音乐AI正在加速发展

MuseNet生成的乐曲中不仅包含了多种乐器,而且能把不同的曲风融合在一起,带给人不一样的体验。

OpenAI并非唯一一家踏足音乐AI领域的公司。今年3月,谷歌发布了一种名为Google Doodle的算法,可以让用户模仿作曲家巴赫的风格创作旋律。去年年底,Google Brain的项目Magenta推出了一种算法Music Transformer,它能识别歌曲的重复旋律。可以看出,音乐AI正在快速发展,没准将来某家音乐AI会成为歌坛小天王呢!

博文链接:https://openai.com/blog/musenet/

文章来自:Venturebeat