极大提升合成速度,百度提出首个全并行语音合成模型ParaNet
语音合成(Text-to-Speech, TTS)在智能家居、内容创作、人机交互领域有着广泛应用。近日,百度研究院在论文《Parallel Neural Text-to-Speech 》中,提出了语音合成领域首个全并行模型 (Parallel Neural Text-to-Speech)。该模型直接采用前馈神经网络 (Feedforward Neural Network),不依赖于任何自回归神经网络 (autoregressive neural network) 或者循环神经网络,从文本生成音频波形仅需一次前馈传递(feed-forward pass),大大提升了合成速度。