百度提出 Deep Voice：实时的神经语音合成系统

百度研究部门最近提出了深度语音（Deep Voice）系统，该系统是一个完全由深度神经网络构建的高质量语音转文本系统。

百度研究部门最近提出了深度语音（Deep Voice）系统，该系统是一个完全由深度神经网络构建的高质量文本转语音系统。而如今建立这样一个系统最大的障碍就是音频合成的速度，因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题，并且已经做到了实时的语音合成，这相比以前的 WaveNet 推理的实现有 400 倍的加速。

从文本合成人工语音，也就是我们所熟知的文本转语音（TTS），在许多的应用中都是非常重要的组件，比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上，它使得人类在不需要视觉界面的情况下能与科技进行交互。

现代 TTS 系统主要基于复杂的、多阶段处理流程（pipeline)，每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性，开发新的 TTS 系统需要大量的人力，也非常的困难。

Deep Vioce 受启发于传统的文本转语音处理流程采用了同样的架构，但使用神经网络取代了所有组件且使用了更简单的特征。这使得我们的系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。

Deep Voice 为真正的端到端语音合成奠定了基础，这种端到端系统没有复杂的处理流程，也不依赖于人工调配（hand-engineered）的特征作为输入或进行预训练（pre-training）。

我们目前的流程并不是端到端的，由音素模型（phoneme model）和语音合成组件所构成。下面的剪辑是通过整个流程由文本合成的语音。音频可点击原文链接http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/ 查看。

这个声音有机械的性质是因为整个流程的结构和音位模型，如果只是语音合成组件的话会生成更自然的语音。以下是仅仅使用语音合成组件的语音剪辑，其使用的特征直接来源于实际的语音而不是音位模型。

这些样本听起来非常接近原始音频，这也表示我们的语音合成系统组件能很有效地生成人类语音。

深度学习变革了包括计算机视觉和语音识别在内的许多领域，我们相信语音合成如今也到了一个跳变点。我们期待看到深度学习社区能想到新的东西，并希望通过分享我们的文本转语音系统能加速此进程。

更多的细节，可查看我们的论文：

论文：Deep Voice: Real-time Neural Text-to-Speech

image (3).png

摘要：我们提出了一种高质量的、完全构建于深度神经网络的文本转语音系统 Deep Voice，它为真正的端到端神经语音合成奠定了基础。该系统包含 5 个重要基础：定位音素边界的分割模型、字母到音素（grapheme-to-phoneme) 的转换模型、音素时长预测模型、基础频率预测模型、音频合成模型。对分割模型，我们提出了一种使用深度神经网络完成音素边界检测的新方法，它使用了 CTC（connectionist temporal classification）损失函数。对音频合成模型，我们部署了 WaveNet 的变体，它要比原始的 WaveNet 需要更少的参数、训练速度更快。在每个组件上使用神经网络，我们系统要比传统的文本转语音系统更简单、更灵活（传统的组件需要费劲的人工调配以及大量的专业知识）。最后，我们演示了无论是 GPU 还是 CPU 上使用我们的系统进行推理，能够比实时的、说是最好的 WaveNet 推理核函数更快，比已有的实现快了 400 多倍。

原文链接：http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/

入门百度工程Deep VoiceDNN论文TTS