语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。主要包括1.语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3.语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。
[描述来源:Wikipedia, URL: https://en.wikipedia.org/wiki/Speech_enhancement]
语音增强问题因通道数不同分为单通道增强以及多通道增强。多通道方法包括波束形成与独立成分分析等方法,单通道方法包括信号处理方法以及掩膜(masking)估计方法,其中掩膜估计方法包括模型化方法以及近几年兴起的有监督学习方法。
发展历史
描述
自上世纪70年代起,随着越来越多的语音设备投入到日常生活中,语音增强问题也逐渐受到各国学者的重视,提出了大量的语音增强算法,包括基于信号处理的方法、模型化的频谱估计方法,以及有监督学习方法。现阶段基于神经网络的语音增强方法收到了业界学者的关注。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1976-1988 | 提出了基于信号处理的方法,提出了谱减法,维纳滤波法以及语音准周期性和语音产生机理的数字信号处理算法 | R. H. Frazier et al. Enhancement of speech by adaptive filtering. Proc. IEEE Int. Conf. Acoustic, Speech and Signal Processing, 1976: 251-253. Douglas O Shaughnessy, Linear Predictive Coding, IEEE Potentials, 1988 L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Englewood Cliffs, NJ: Prentice Hall, 1978. |
3 | 1988-1989 | 使用多层感知机从带噪语音中预测纯净波形 | S. Tamura and A. Waibel. Noise reduction using connectionist models. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing, 1988: 553–556. S. Tamura. An analysis of a noise reduction neural network. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing, 1989: 2001–2004. |
4 | 2000 | 提出使用GMM来对语音建模,进行语音增强 | S. T. Roweis. One microphone source separation. In Advances in Neural Information Processing Systems, volume 13, 2000: 793–799. |
5 | 2003 | 利用主成分分析对语音增强建模 | G.-J. Jang and T.-W. Lee. A maximum likelihood approach to single-channel source separation. Journal of Machine Learning Research, 2003(4):1365–1392. |
6 | 2004 | 利用掩膜估计的方法进行语音增强 | M. Seltzer, B. Raj, and R. Stern. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004 (4):379–393. |
7 | 2008 | 将非负矩阵分解应用到语音增强任务中 | Wilson K W, Raj B, Smaragdis P, et al. Speech denoising using nonnegative matrix factorization with priors[C]//Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008: 4029-4032. |
8 | 2012 | SVM被引入到语音增强方法中,用于提高算法的泛化能力 | K. Han and D. Wang. A classification based approach to speech segregation. Journal of the Acoustical Society of America, 2012(132): 3475–3483. |
9 | 2013 | 将深度神经网络视为分类器,将纯净语音从语音信号中分离出来 | Y. Wang and D. Wang. Towards scaling up classification-based speech separation. IEEE Trans. Audio, Speech, Lang. Process, 2013: 1381–1390. |
发展分析
瓶颈
对单通道不稳定噪声的语音增强问题的处理是这个领域研究的难点。
未来发展方向
包含越来越少的模型假设的语音增强算法是未来的发展方向,例如,噪声与语音的独立性关系假设、噪声的连续性假设或者噪声的不变性假设等。此外,算法的实时性也会因应用场景而变得越来越重要。
Contributor: Yilin Pan