2020/06/01 10:49

腾讯AI艾灵领唱中国新儿歌：歌声合成与歌词创作技术解读

今年六一儿童节，腾讯联合北京荷风艺术基金会发起“腾讯荷风艺术行动”，给孩子们送上两份礼物，为音乐美学中国素质教育的发展做出贡献。

其中一份就是由首席儿歌守护唱作人，青年演员歌手王俊凯与雄安孩子，以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物被以特别的方式呈现：在H5互动里，每个人都可以轻松召唤AI艾灵，创作你的专属MV——给几个关键词，艾灵就能为你创作专属歌词，并和王俊凯一起唱给你听。

在互动里，唱作俱佳的AI数字人艾灵已搭乘互联网来到每个人面前，她不仅能作词，还能用近乎真人的声线演唱，加上用多模态智能技术搭建的数字躯体，绝对是令你难忘的全能型虚拟歌手。

怎么样？是不是高音甜、中音准、低音稳？AI艾灵源自腾讯 AI Lab 的实验探索性技术项目——AI 数字人（Digital Human）。项目的目标是把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态 AI 能力与技术深度融合，生成清晰、流畅、高质的可交互内容，打造高拟人度的智能数字人，推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

AI 艾灵使用了基于数据依赖型的深度学习方法，现在还只能生成基础歌词和合成歌曲，无法实现完全自由的创作。但腾讯 AI Lab 将继续技术攻坚，探索自动化音乐合成及基于全新乐曲自动生成歌词模板再自动填词的新方法。此外，基于智能数字人的交互式技术在音乐教育方面的应用也是重要的探索方向。

下面通过腾讯 AI Lab 的两项研究成果： DurIAN 个性化歌声合成和 SongNet （相关论文被顶级会议 ACL 2020 收录）来谈谈AI艾灵歌声背后的核心技术。

DurIAN个性化歌声合成

如果你用过早期的自动合成语音听书软件，那你就会听过最原始的机器合成语音，即直接将各个字词的发音生硬地拼接到一起，没有人类在自然说话和唱歌时自然起伏的韵律。很多电影也采用了人们对机器合成语音的这种典型印象来塑造机器人或 AI 角色，而且这类声音也是著名物理学家斯蒂芬·霍金偏爱的音色。

但是，随着近些年机器学习技术的发展，合成语音在拟真度方面已经取得了长足的进步，机器声再也不只是人类印象中那种一板一眼的刻板模样了，现在的 AI 甚至还能学会像人类一样情感充沛地歌唱！

快来听听这次在 QQ 音乐上线的公益数字专辑《儿歌新唱》里，AI艾灵与小朋友们的一起合唱的《声律启蒙》

https://y.qq.com/n/yqq/song/002epGT73JjYUB.html?ADTAG=h5_playsong&no_redirect=1

想听更多歌曲，可以移步她的B站直播间：

https://live.bilibili.com/21927742

AI艾灵的歌声即来源于这样的 AI 技术。首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。

AI 歌声合成的模型架构不同于“初音未来”等虚拟歌姬的“机器合成+人工调教”模式，使用了基于DurIAN声学模型的AI艾灵无须经过人工调教就能得到非常自然和拟真的歌声。DurIAN-singing synthesis的声学模型结构我们在端到端语音合成模型DurIAN的基础上进行修改，加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型，还可以实现跨语种歌声合成，比如用英文说话人的声音合成中文歌声。声学模型的编码器采用音素序列作为输入，编码器的输出经过一个对抗训练的说话人分类器以减少输入文本与说话人的相关度，提高最终合成音频的说话人相似度。与此同时，编码器的输出根据输入的唱腔时长信息沿时间轴展开，与输入的基频、说话人向量、语言向量进行拼接，作为解码器的输入，精准控制合成歌声的韵律、音调和音色。解码器采用自回归模型预测梅尔频谱。多频段同步式 WaveRNN 模型用作声码器从生成的梅尔频谱合成音频。这项技术已经可以在适当的硬件成本下实现实时歌曲合成。在互动中，AI艾灵可以快速地为千万用户输入的歌谱合成出对应的歌声。

多频段同步式 WaveRNN：首先把语音信息分频段，每一步用同一个声码器模型同时预测多个频段的值，如果分成 4 个频段，则每一步可以计算 4 个值，计算次数就是原来的四分之一。在合成过程中，声码器预测多频段的值后，通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

展望未来，这项技术可以用于降低歌曲制作过程中录音环节的成本，更可以用于打造虚拟偶像，成为广大专业和社区音乐人创作不可多得的制作工具。除了 AI 歌声合成技术之外，腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

SongNet：为你写歌

AI艾灵的歌词生成方案基于腾讯 AI Lab 最新研发的歌词创作模型SongNet。该深度学习模型最大的特点就是可以给定任意格式和模板来生成相契合的文本。在前文的H5里面，AI艾灵的"命题作词“技能就来源于此。

例如，给定《十年》这首歌词的格式，我们可以通过SongNet重新进行配词，并保证格式不变，可以根据原来的曲谱进行演唱：

原歌词：十年之前/我不认识你/你不属于我/我们还是一样/陪在一个陌生人左右/走过渐渐熟悉的街头

新配词：夜深人静/思念你模样/多少次孤单/想伴在你身旁/是什么让我如此幻想/为何会对你那般痴狂SongNet 模型框架该任务的挑战在于既要生成跟格式一致的文本，又要保证句子的整体性，还要有歌词的韵律以及美感。所以我们设计了SongNet模型来尝试一次性解决所提到的问题。SongNet模型的基本骨架是一个基于Transformer的自回归语言模型，我们针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。通过局部和全局两种注意力机制达到了对上下文语义和格式同时建模的目的。SongNet模型兼有全局生成和局部精修两种功能，通过主题和类型控制全局生成整段歌词之后，由于模型的局限性，总会有差强人意的部分。这时我们就可以和模型进行交互，将质量不高的词句抹掉让模型局部重新生成补全以达到精修的目的。词粒度和句粒度的MASKing训练策略可以进一步增强模型给定上下文补全缺失内容的能力。

此外，SongNet 也采用了类似于 BERT 和 GPT 的预训练和微调范式，通过在大规模文本语料的预训练和歌词语料的微调过程，可以进一步提升模型生成歌词的质量。SongNet 根据给定格式填词(宋词和十四行诗)SongNet 根据给定内容局部补全精修在“王俊凯AI唱我的歌”H5 中，用户随机输入一个或者多个关键词，AI 就可以根据这份灵感，创作出优美、恰当的歌词，比如“田野花开多芬芳，仰望满天星光”、“青草地里看花开，小花倾听着爱”。

生成的歌词然后会被提交给歌声合成模块，再融合对应的背景音乐，一首悦耳动听的歌曲就新鲜出炉了。

SongNet模型是AI Lab在AI创作方向的一次尝试，现阶段模型也存在一些局限性。歌曲作为一种艺术形式，蕴含了人类细腻的情感和深厚的智慧，在这方面目前版本的模型和人类还有很大的距离，无法感知人类丰富多变的情感。而且此次还同时设置了上下文约束和蕴含特定关键词的限制，所以会在一定程度上降低模型生成歌词的逻辑性和连贯性。未来，我们一方面会持续增强模型对歌曲主题和情感的感知度，另一方面也会设计模型策略来进一步提升生成的歌词的逻辑性、连贯性以及优美度。

顺带一提，AI艾灵还能借助腾讯 AI Lab 研发的王者荣耀游戏解说生成模型来生成游戏解说词，再通过语音合成实时生成生动活泼的解说。

一起探索数字内容生成，共创未来

腾讯 AI Lab 已经通过公开论文发布了 DurIAN 和 SongNet 的技术细节，SongNet 代码也已开源，你可基于此开发自己的虚拟歌手或使用开源代码构建自己的写歌或写诗机器人，共同探索数字内容生成与教育等现实场景的结合方式，创造更多"科技向善“的可能性。

lDurIAN论文：https://tencent-ailab.github.io/durian（投稿于INTERSPEECH 2020）

lSongNet论文：https://arxiv.org/abs/2004.08022（已被 ACL 2020 接收）

lSongNet代码：http://github.com/lipiji/SongNet

产业腾讯AI

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

对抗训练技术

对抗训练涉及两个模型的联合训练：一个模型是生成器，学习生成假样本，目标是骗过另一个模型；这另一个模型是判别器，通过对比真实数据学习判别生成器生成样本的真伪，目标是不要被骗。一般而言，两者的目标函数是相反的。

来源：机器之心

上采样技术

在数字信号处理中，上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。上采样可以与扩展同义，也可以描述整个扩展和过滤（插值）过程。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

自回归模型技术

自回归模型，是统计上一种处理时间序列的方法，自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

来源：维基

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/