2018/08/23 09:37

如何像“二次元萌妹”小冰一样写诗创作和即兴编曲？

作为全球首个以培养 EQ 为目标的 AI 聊天机器人，微软小冰于 2014 年诞生，当年 6 月在微博上线，因性格活泼、聊天能力强引起热烈反响，在过去的几年中，微软小冰陆续入驻微信、京东电商、QQ、Windows 10 等平台，先后解锁了主持人、唱歌、写诗创作等技能，成为无处不在的“二次元文艺少女”。

在微软小冰第五代发布的时候，沈向洋已经表示：“小冰是一个聊天机器人，但不仅仅是一个聊天机器人，聊天只是用户的一个体验，但微软设计产品理念的真正核心在于打造一个情感计算框架。”2018 年 7 月 26 日，微软小冰正式进入第六代，这也是微软小冰历史上最大规模的一次全面升级，升级内容涉及到微软小冰情感计算框架的所有组成部分。小冰的产品形态涉及对话式人工智能机器人、智能语音助手、人工智能创造内容提供者和一系列垂直领域解决方案，覆盖全球五个国家的 40 余个平台。

从一个聊天机器人转化成一个完整的情感计算框架，再从情感计算框架转化成各种各样的产品形态，与各种各样垂直领域的方向进入到人类社会生活的方方面面去，这是第六代微软小冰最为显著的特点。

这位明明可以靠颜值却非要靠才华的“水手服少女”背后，究竟隐藏着怎样的秘密？不妨通过以下三篇来自微软的最新论文，来看看小冰是如何通过写诗创作、即兴编曲来实现养家糊口的。

小冰乐队

论文摘要

随着音乐创作知识的发展和近年来需求的增加，越来越多的公司和研究机构开始研究音乐的自动生成。但以往的模型在应用于歌曲生成时存在局限性，这既需要旋律，又需要编曲。此外，许多与歌曲质量有关的关键因素没有得到很好的解决，例如和弦进行和节奏模式。特别是。如何确保多音轨音乐的和谐，这仍然是一个有待探索的问题。

为此，我们对流行音乐的自动生成进行了重点研究，其中，我们考虑了旋律生成的和弦和节奏的影响，以及音乐编排的和声。我们提出了一种端到端的旋律和编曲生成框架，称为“小冰乐队”（XiaoIce Band），该框架产生了由几种乐器演奏的几个伴奏曲目组成的旋律音轨。

具体来说，我们设计了一种基于和弦的节奏和旋律交叉生成模型（CRMCG），以生成带有和弦进行的旋律。然后，我们提出一种基于多任务学习的多乐器协同编曲模型（ Multi-Instrument Co-Arrangement Model ，MICA）。最后，我们在一个真实数据集上进行了广泛的实验，结果证明了 XiaoIce Band 的有效性。

本文获得 KDD 2018 Research Track 最佳学生论文。

论文贡献

我们提出了一种端到端的多轨音乐生成系统，包括旋律和编曲。
基于音乐知识，我们提出用和弦进行来指导旋律和通过节奏型来学习歌曲的结构。然后，我们使用节奏和旋律交叉生成方法进行音乐生成。
我们在解码器层的每一步使用其他任务状态开发多任务联合生成网络，这提高了生成质量并确保了多轨音乐的和谐。
通过提供的大量实验，我们的系统与其他模型表现更好的性能，人工评估也得到一致的结论。

论文模型 & 效果

▲ 图1. 我们生成的歌曲示例

▲ 图2. 标有“和弦进行”的歌曲“We Don’t Talk Anymore”的旋律

▲ 图3. 流行歌曲的音轨和乐器分析

▲ 图4. 小冰乐队的流程图概述

▲ 图5. CRMCG

▲ 图6. (a): MICA (b): 注意单元 (c): MLP单元

▲ 图7. 与人类研究相比的和弦的分析

▲ 图8. 节奏分布

▲ 图9. 四个部分的编曲分析

▲ 图10. 编曲的和谐分析（G：吉他，S：弦乐，B：贝斯）

图像激发诗歌生成

论文摘要

诗歌的创作灵感一般来源于视觉。不同的解读者对于对象和从图像中观察到的情感印记会有各种各样的感觉。我们在本论文中提出一个从图像生成诗歌的系统来模仿这一过程。

给定一张图像，我们首先要从图像中提取一些呈现物体和情感的关键词。然后基于关键字在人类所作诗歌中的关联性扩展出相关关键词。最后，使用现有诗歌训练的循环神经网络模型来逐渐从关键字生成诗句。

我们的方法由人类评估人员进行评估，并与其它基准进行比较。结果表明，我们的作诗方法比其他基准方法更有艺术性。自 2017 年 7 月发行以及诗歌总集发布以来，这一体系已经为使用者创作了一千二百万的诗歌。

论文贡献

我们介绍一种创新的应用来用图像去激发现代诗歌的创作，这是在模仿人类受到景物触动而抒发情感的创作行为。
为了创作高质量的诗歌，我们结合了几种验证机制来验证文本的流畅性，诗歌的完整性以及图像的匹配度。
我们利用关键词扩展来提高诗歌创作的多样性，使其更富想象力。

论文模型 & 效果

▲ 图1. 诗歌框架的图像说明。该系统接受用户所提供的图像并输出语义相关的中国现代诗歌片段。对于该图左侧部分，其实关键字从物体和情感识别器获得之后，运用关键字过滤和扩展来生成关键词集。在此之后，如诗歌生成部分显示，关键词集中的每个关键词被认为是每行诗的一颗种子。提出一种多层生成模式来保持句子的流畅和连贯。另外，用自动鉴别器来选择高品质的句子。

▲ 图2. 我们提出的层级诗歌模式包括LSTM的两个级别。在该图的后半部分说明了诗歌水平模式，通过所有前面的句子来预测下一个句子的内容载体。此后，该图的上半部分内容载体被认作句子级别LSTM的输入。注意该图仅仅显示的是循环生成的反向生成器。正向生成的例子可以通过正序句子级别的生成模式来达到。

▲ 图3. 人工测评工具旨在捕捉方法之间的相对判断。对于每个图像，每种方法都会生成一首四行诗，并且所有的诗都会并排显示。

▲ 表1. 我们的诗歌生成器在句子水平和诗歌水平上的人工测评结果。平均分数表明递归策略和层级模型都得到显著改善（p值小于0.01）。

▲ 表2. 不同关键字扩展方法的性能。虽然它们共享接近的平均分，但是通过应用基于词共现的查询扩展，关键词和句子无关性率都下降。

▲ 图4. 由两个基线方法和我们提出的方法生成的示例诗。

▲ 表3. 我们的方法和其他两个基线的人工测评结果。虽然“相关性”方面由Image2caption占优，而CTRIP在“流畅”部分更强，但我们的方法在其他方面明显优于两个基线。

超越叙事描述

论文摘要

根据图像自动生成自然语言的技术引起了广泛关注。本文中，我们更进一步，研究如何从图像生成诗歌语言，进行自动的诗歌创作。这一工作涉及多项挑战，包括发现图像中的诗歌线索（例如，绿色中蕴含的希望），以及生成诗歌——既满足于图像的相关性，又满足语言层面上的诗意。

为解决上述问题，我们通过策略梯度将诗歌生成工作划分成了两个相关的多对抗训练子任务，从而保证跨模态相关性和诗歌语言风格。为了从图像中提炼诗歌线索，我们提出学习深度耦合的视觉诗意嵌入，在其中，机器可以连带地学习图像中物品、情感和场景的诗意呈现。本文还介绍了两种指导诗歌生成的判别网络，包括多模态判别器和诗歌风格判别器。

为了便于研究，我们通过人工注解者收集了两个诗歌数据集，它们有如下性质：1）第一个是人类注解的“图像-诗歌”对数据集（共 8,292 对），以及 2）迄今为止最大的公共英文诗歌语料数据集（共有 92,265 首不同的诗歌）。

我们应用自己的模型生成了八千张图像，进行了大规模的实验，其中一千五百张图像是随机选取来进行评估的。客观评估和主管评估均显示，该方法相对于目前最先进的图像生成诗歌方法，表现优异。我们请 500 名人类受试者来进行了图灵测试，其中 30 名评估者是诗歌方面的专业人士，测试结果证明了我们方法的有效性。

论文贡献

我们提出以自动方式从图像生成诗歌（英文自由诗）。就我们所知，这是首个尝试在整体框架中研究图像生成英文自有诗歌问题的努力，它使机器在认知工作中能够具备接近人类的能力。
我们将深度耦合的视觉诗意嵌入模型与基于 RNN 的联合学习生成器结合，其中两个判别器通过多对抗训练，为跨模态相关性和诗意提供奖励。
我们收集了首个人类注解的图像-诗歌对数据集，以及最大的公共诗歌语料数据集。通过应用自动和人工评价标准（包括对 500 多位人类受试者进行的图灵测试），大量实验证明，相对于几个基线方法，我们的方法更为有效。为了更好地促进图像生成诗歌的研究，我们将在不远的将来公布这些数据集。

论文模型 & 效果

▲ 图1. 示例-人类对相同图像写出的描述和诗歌。我们可以看到，这两种形式中相同颜色的用词有着明显差异。相对于描述图像中的事实，诗歌更倾向于捕捉图像中物体、场景和感情更深层次的含义和是个象征（例如，骑士与猎鹰，猎和发与进食，以及待与站）。

▲ 图2. 使用多对抗训练进行诗歌生成的架构。我们首先使用人类注解配对的图像-诗歌数据集（多模态诗集）中的图像-诗歌对 (a) 来训练深度耦合的视觉诗意嵌入模型 (e)。词性分析器（斯坦福大学 NLP 工具）从诗歌中提取诗歌象征（例如物品、场景和情感），图像特征 (b) 即为使用提取的这些象征对 CNN 进行微调后取得的诗歌多 CNN 特征。诗歌的语句特征 (d) 是从受到最大公共诗歌语料库（单模态诗集）训练的 skip-thought 模型 (c) 中提取得到的。基于 RNN 的语句生成器 (f) 作为智能体得到训练，两种判别器（评判根据给定图像生成的诗歌的多模态 (g) 和诗歌风格 (h) ）为策略梯度 (i) 提供奖励。词性分析器从是各种提取词性词语。