2016/12/23 12:46

来听听人工智能为这个圣诞节献上的歌曲

随着圣诞节的到来，各种换汤不换药的圣诞歌曲又在挑战人们审美疲劳的极限。虽然不知道歌手们自己是如何完成每年的旧瓶装新酒的创作，但今年的圣诞歌曲中确实混入了一朵奇葩，如果这几个由人工智能编写的闹腾旋律姑且也能算是歌曲的话。

多伦多大学的博士生楚航近日发布了他的新项目，一首完全由人工智能看着一棵圣诞树来编曲，填词创并朗诵的一首神奇的小调，并配有一个火柴人摇摆起舞。

楚航通过建立一个层级递归神经网络（Hierarchy RNN）的模型，然后收录大量音乐数据，从而由人工智能分析大体的音乐结构特点，发现并总结多首相似风格的音乐中存在的类似的特征，再以新颖的构建框架建立多层神经网络模型，最终通过输入一副画面，便能生成相应主题的流行音乐。研究项目中每层网络对应生成不同的音乐成分，并且每一层都是一个「双层 LSTM（double layer LSTM）」且相互关联，让最终输出的音乐具有更高的质量和丰富性。在多层的构筑框架下，还可以在生成音乐之外编出新颖的舞步和歌唱的人声。楚航便是在这样的构建基础下制作了应用 Neural Karaoke，Neural Dancing 以及 Neural Story Singing。

课余兴趣的游戏之作

研究员楚航是多伦多大学（University of Toronto）的在读博士生，导师为人工智能界大牛 Raquel Urtasun 以及 Sanja Fidler，现主要致力于研究学习 CV（Computer Vision）。此前康奈尔大学（Cornell University）获取硕士学位，于上海交通大学获取本科学位。

个人主页：http://chuhang.github.io/

这是作为博士生楚航在多伦多大学的第一年，过往研究主要集中于机器学习（machine learning）以及 2D-3D 转换建模等，现今在跟随导师主要研究 CV 的同时，想要做一些有趣的相关研究项目，能够将以往学习的知识联合运用，由此产生了动力并着手于这项人工智能音乐项目的研究。并在两周的时间里得到了目前的成果。

多层构建 RNN 的方式使得 AI 输出的音乐内容更加丰富

Neural Karaoke 的模型核心理论名为分层递归神经网络。在当前的人工智能研究中，RNN（时间递归神经网络 recurrent neutral network 和结构递归神经网络 recursive neural network 的统称，但通常意义上单指时间递归神经网络，本文亦是）是一项非常重要和主流的机器学习方法。相较于深入学习强化单个 RNN，楚航在项目中提出了新的神经网络构建框架，即层级递归神经网络。通过在单个 RNN 上再度构建一个新的 RNN，使模型变得多层立体（hierarchical），并让每层神经网络对应生成单独的音乐成分。而每一层所对应的音乐成分并不是固定不变的，例如在楚航的研究中，最底层的（base layer）RNN 负责生成音乐旋律，然后在旋律上关联按键音，接着在其基础上再构建一层 RNN 负责生成和弦，而后构建出第三层 RNN 对应生成鼓点，最终输出一首结构丰富的的音乐。模型的具体结构如图：

image (15).png

在建立多层神经网络的同时，每一层的 RNN 模型中都建立了双层 LSTM（long-short term memory），并让不同层次相互关联，以弥补 RNN 在短期记忆上的匮乏。而对于音乐的组成成分，楚航团队尝试做了一些拓展，除了最基础的旋律+和弦+鼓点外，团队还尝试加入了舞蹈以及歌词，这两项尝试也就对应到了楚航论文中的 Neural Dancing 和 Neural Story Singing。如果能把现有的所有成分融入到一个模型中，理论上可以做到输入一副图片，然后得到一首相应风格的歌曲并伴随着小火柴人的舞步和歌声。

对于这项研究的核心价值体现，楚航表示或许应当是提出了一个新的人工智能应用场景，给学界带来一点新的研究方向。

实验室中的 Neural Karaoke，谷歌 Magenta 与索尼 Flow Machine

除却楚航的 Neural Karaoke，谷歌的 magenta system 团队和索尼旗下的 CSL 研究室也各自发布了相似的研究成果。谷歌的 magenta 团队发表的人工智能作曲应用 TensorFlow 的运作方法主要基于深度学习下的增强学习（deep reinforcement learning）和极限类比（maximum likehood）。通过构建一个生成音节的神经网络（Note-RNN）, 然后建立 LSTM 来预测目标音乐规律中的下一个音节，然后通过 RL 法来将其改善。再由音乐理论和奖励基质（reward base）共同构成的奖励方程确定输出音节，而后送入下一个音节网络。Magenta 团队表示，这样结合了 ML 的 RL 调节法不单单可以用在产生美妙的曲调，同时还能够显著的减少神经网络运作中不必要的无用及失败模型。对于 magenta 团队所使用的方法，楚航表示这和他使用的多层神经网络框架并不冲突，两者的应用应该是平行且互补的。

而索尼的 CSL 研究室虽然并没有发表相关论文，但也同样发表了他们的应用成果，名为「FlowMachine」的软件，并请专业音乐人 Benoît Carré 填词，最终带来了披头士风格的歌曲「Daddy』s Car」。并且 FlowMachine 和谷歌团队的 TensorFlow 都将在不久后于各自的平台发表。

让大众以更低廉的成本感受到原创音乐的乐趣

楚航表示他今后的研究方向依然是会着重于 CV 和建模方面。而 AI 作曲作为一个课余想到的课题，也确实有打算做下去，将其加以改进。例如融合多层建模和增强学习，或者增加音乐情绪的研究，亦或是输入和输出的双向性和逆转性，都是很有趣研究方向。并且目前正在召集感兴趣的同好加入项目组。

楚航研究人工智能编曲的初衷就是基于有趣。对于应用的方向，可能会希望建立一个类似社交网站的工具，让大家上传分享各自独特风格的音乐和舞步，带来更多的可玩性。亦或是使用廉价的机器人，节省人们消耗在投资，制作音乐上的金钱，更加容易地听到全新的音乐，享受更简单的原创音乐等等。

入门多伦多大学循环神经网络音乐工程