几十年来人们一直希望可以从文本生成听感自然的语音系统(text-to-speech,TTS)。过去几年来,TTS 研究取得了重大进展,完整 TTS 系统的各个独立部分得到了很大的性能提升。通过结合过去的研究成果如Tacotron 和 WaveNet,我们获得了更大的性能提升,最终构建出了新系统 Tacotron2。我们的方法并没有使用复杂的语言学或声学特征作为输入,而是使用神经网络从文本生成类人的语音,其中输入数据仅使用了语音样本和相关的文本记录。
可以在论文「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」中查看新系统的完整描述。简单来说,该系统的工作方式是:优化一个序列到序列模型以将字母序列映射到编码了录音的特征序列。这些拥有 80 个维度的声谱(每 12.5 毫秒计算一个帧)不仅捕捉了单词的发音,还有人类语音的微妙变化,包括音量、语速和语调。最后,这些特征被一个类似 WaveNet 的架构转换成 24kHz 的波形。
Tacotron2 模型架构的详细结构。图中的下半部分描述了将字母序列映射到声谱的序列到序列模型的结构。更多技术细节请参见论文。
TTS 新系统取得了当前最佳的结果,可以在这里试听 Tacotron2 生成的语音样本:https://google.github.io/tacotron/publications/tacotron2/index.html。我们让人类听者试听生成的语音以评估其自然性(类人性),并取得了和专业录音相当的分数。
虽然结果很不错,但还存在一些困难需要解决。例如,新系统很难对复杂单词做出正确的发音(例如,decorum 和 merlot),在极端情况下它甚至会随机生成奇怪的噪音。并且,我们的系统目前还不能实时生成语音。此外,我们还无法控制生成的语音,例如使声音听起来开心或悲伤。这些都是很有趣的研究方向。
论文:Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
论文链接: https://arxiv.org/abs/1712.05884
摘要:本论文介绍了 Tacotron 2,一个用于直接从文本合成语音的神经网络架构。该系统包括一个循环序列到序列特征预测网络(把字符嵌入映射到梅尔标度谱图)以及一个改良的 WaveNet 模型(作为声码器以从这些谱图中合成时域波形)。相较于专业录音水准的 MOS 值 4.58,我们的模型取得了 4.53 的 MOS 值。为了验证我们的设计选择,我们展示了系统关键组件的消融研究,并评估了使用梅尔谱图取代语言学、持续时间、F_0 特征作为 WaveNet 输入的影响。我们进一步证明使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。
表 1:不同系统 95% 置信区间的 MOS 估值
图 2:合成值 vs. 真值:100 项上的 800 个评级
表 2:当已在预测/真值梅尔谱图上训练的 WaveNet 用于从预测/真值梅尔谱图上进行合成之时,系统评估的 MOS 值的对比。
表 3:分别以 Griffin-Lim 和 WaveNet 为声码器的 MOS 值比较,以及在 WaveNet 中分别使用 1025 维的线性谱图和 80 维的梅尔谱图作为条件特征的 MOS 值比较。
表 4:不同层设置和感受野大小的 WaveNet 的 MOS 值评估结果。
原文地址: https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html