Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

来听听人工智能为这个圣诞节献上的歌曲

随着圣诞节的到来,各种换汤不换药的圣诞歌曲又在挑战人们审美疲劳的极限。虽然不知道歌手们自己是如何完成每年的旧瓶装新酒的创作,但今年的圣诞歌曲中确实混入了一朵奇葩,如果这几个由人工智能编写的闹腾旋律姑且也能算是歌曲的话。

多伦多大学的博士生楚航近日发布了他的新项目,一首完全由人工智能看着一棵圣诞树来编曲,填词创并朗诵的一首神奇的小调,并配有一个火柴人摇摆起舞。

楚航通过建立一个层级递归神经网络(Hierarchy RNN)的模型,然后收录大量音乐数据,从而由人工智能分析大体的音乐结构特点,发现并总结多首相似风格的音乐中存在的类似的特征,再以新颖的构建框架建立多层神经网络模型,最终通过输入一副画面,便能生成相应主题的流行音乐。研究项目中每层网络对应生成不同的音乐成分,并且每一层都是一个「双层 LSTM(double layer LSTM)」且相互关联,让最终输出的音乐具有更高的质量和丰富性。在多层的构筑框架下,还可以在生成音乐之外编出新颖的舞步和歌唱的人声。楚航便是在这样的构建基础下制作了应用 Neural Karaoke,Neural Dancing 以及 Neural Story Singing。

课余兴趣的游戏之作

研究员楚航是多伦多大学(University of Toronto)的在读博士生,导师为人工智能界大牛 Raquel Urtasun 以及 Sanja Fidler,现主要致力于研究学习 CV(Computer Vision)。此前康奈尔大学(Cornell University)获取硕士学位,于上海交通大学获取本科学位。

个人主页:http://chuhang.github.io/

这是作为博士生楚航在多伦多大学的第一年,过往研究主要集中于机器学习(machine learning)以及 2D-3D 转换建模等,现今在跟随导师主要研究 CV 的同时,想要做一些有趣的相关研究项目,能够将以往学习的知识联合运用,由此产生了动力并着手于这项人工智能音乐项目的研究。并在两周的时间里得到了目前的成果。

多层构建 RNN 的方式使得 AI 输出的音乐内容更加丰富

Neural Karaoke 的模型核心理论名为分层递归神经网络。在当前的人工智能研究中,RNN(时间递归神经网络 recurrent neutral network 和结构递归神经网络 recursive neural network 的统称,但通常意义上单指时间递归神经网络,本文亦是)是一项非常重要和主流的机器学习方法。相较于深入学习强化单个 RNN,楚航在项目中提出了新的神经网络构建框架,即层级递归神经网络。通过在单个 RNN 上再度构建一个新的 RNN,使模型变得多层立体(hierarchical),并让每层神经网络对应生成单独的音乐成分。而每一层所对应的音乐成分并不是固定不变的,例如在楚航的研究中,最底层的(base layer)RNN 负责生成音乐旋律,然后在旋律上关联按键音,接着在其基础上再构建一层 RNN 负责生成和弦,而后构建出第三层 RNN 对应生成鼓点,最终输出一首结构丰富的的音乐。模型的具体结构如图:

image (15).png

在建立多层神经网络的同时,每一层的 RNN 模型中都建立了双层 LSTM(long-short term memory),并让不同层次相互关联,以弥补 RNN 在短期记忆上的匮乏。而对于音乐的组成成分,楚航团队尝试做了一些拓展,除了最基础的旋律+和弦+鼓点外,团队还尝试加入了舞蹈以及歌词,这两项尝试也就对应到了楚航论文中的 Neural Dancing 和 Neural Story Singing。如果能把现有的所有成分融入到一个模型中,理论上可以做到输入一副图片,然后得到一首相应风格的歌曲并伴随着小火柴人的舞步和歌声。

对于这项研究的核心价值体现,楚航表示或许应当是提出了一个新的人工智能应用场景,给学界带来一点新的研究方向。

实验室中的 Neural Karaoke,谷歌 Magenta 与 索尼 Flow Machine

除却楚航的 Neural Karaoke,谷歌的 magenta system 团队和索尼旗下的 CSL 研究室也各自发布了相似的研究成果。谷歌的 magenta 团队发表的人工智能作曲应用 TensorFlow 的运作方法主要基于深度学习下的增强学习(deep reinforcement learning)和极限类比(maximum likehood)。通过构建一个生成音节的神经网络(Note-RNN), 然后建立 LSTM 来预测目标音乐规律中的下一个音节,然后通过 RL 法来将其改善。再由音乐理论和奖励基质(reward base)共同构成的奖励方程确定输出音节,而后送入下一个音节网络。Magenta 团队表示,这样结合了 ML 的 RL 调节法不单单可以用在产生美妙的曲调,同时还能够显著的减少神经网络运作中不必要的无用及失败模型。对于 magenta 团队所使用的方法,楚航表示这和他使用的多层神经网络框架并不冲突,两者的应用应该是平行且互补的。

而索尼的 CSL 研究室虽然并没有发表相关论文,但也同样发表了他们的应用成果,名为「FlowMachine」的软件,并请专业音乐人 Benoît Carré 填词,最终带来了披头士风格的歌曲「Daddy』s Car」。并且 FlowMachine 和谷歌团队的 TensorFlow 都将在不久后于各自的平台发表。

让大众以更低廉的成本感受到原创音乐的乐趣

楚航表示他今后的研究方向依然是会着重于 CV 和建模方面。而 AI 作曲作为一个课余想到的课题,也确实有打算做下去,将其加以改进。例如融合多层建模和增强学习,或者增加音乐情绪的研究,亦或是输入和输出的双向性和逆转性,都是很有趣研究方向。并且目前正在召集感兴趣的同好加入项目组。

楚航研究人工智能编曲的初衷就是基于有趣。对于应用的方向,可能会希望建立一个类似社交网站的工具,让大家上传分享各自独特风格的音乐和舞步,带来更多的可玩性。亦或是使用廉价的机器人,节省人们消耗在投资,制作音乐上的金钱,更加容易地听到全新的音乐,享受更简单的原创音乐等等。

入门多伦多大学循环神经网络音乐工程
暂无评论
暂无评论~