语音识别 | 机器之心

简介

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源

[1]. 维基百科

[2]. 百度百科

[3]. What is Automatic Speech Recognition?

来源URL

[1]. https://en.wikipedia.org/wiki/Speech_recognition

[2]. https://baike.baidu.com/item/自动语音识别/5807980?fr=aladdin

[3]. http://support.docsoft.com/help/whitepaper-asr.pdf

例

Siri通过自动语音识别，将用户的语音转换为系统可读的文字后进行指令的反馈。

发展历史

1952年，三位贝尔实验室的研究人员研究出了世界上第一个能识别10个英文数字发音的系统。该系统被普遍认为是自动语音识别系统的开端。60年代以后，语音识别技术得到了长足发展。日本的东京大学和NEC实验室，美国的卡耐基梅隆大学，以及前苏联的科学家们，相继提出了几种语音识别的基本概念，为今后自动语音识别的发展打下了坚实的基础。70年代后，孤立词识别从理论上得以完善，并已经可以实用。另一方面，IBM和贝尔实验室等一些研究机构，开始把研究中心从孤立词识别系统转到了尝试研究大词汇连续语音识别。80年代最辉煌的成就在于技术的中心从模版匹配转移到了统计模型方法，尤其是隐马尔可夫模型（Hidden Markov Model，HMM）的理论和方法获得了长足的发展。80年代后期，神经网络在50年代后又一次被重新应用到语音识别上来。90年代以后，HMM取得了突破性进展，语音识别技术突飞猛进。21世纪以来，语音识别应用如雨后春笋，Siri等语音助手开始普及。近年，由于计算机硬件和神经网络（Deep Neural Network, DNN）的迅猛发展，基于DNN的自动语音识别取得了惊人成就。

主要事件

年份	事件	相关论文
1982	马尔可夫过程在语音识别中大获成功	Levinson, S. E., Rabiner, L. R., & Sondhi, M. M. (1983). An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition. The Bell System Technical Journal, 62(4), 1035-1074.
1983	最大似然在连续语音识别中的应用被提出	Bahl, L. R., Jelinek, F., & Mercer, R. L. (1983). A maximum likelihood approach to continuous speech recognition. IEEE transactions on pattern analysis and machine intelligence, (2), 179-190.
1989	李开复博士用隐马尔可夫模型（HMM）实现了非特定说话人的语音识别	Lee, K. F., & Hon, H. W. (1989). Speaker-independent phone recognition using hidden Markov models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 37(11), 1641-1648.
1991	隐马尔可夫模型（HMM）在语音识别中已取得重大进展	Huang, X. D., Ariki, Y., & Jack, M. A. (1990). Hidden Markov models for speech recognition (Vol. 2004). Edinburgh: Edinburgh university press.
1994	神经网络和隐马尔可夫模型的混合方法开始在语音识别中得到应用	Bourlard, H. A., & Morgan, N. (2012). Connectionist speech recognition: a hybrid approach (Vol. 247). Springer Science & Business Media.
2005	LSTM在语音识别中的应用	Graves, A., & Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18(5), 602-610.
2011	语音识别工具包kaldi的出世，加速了语音识别研究的进展	Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. EPFL-CONF-192584). IEEE Signal Processing Society.
2012	深度学习教父Hinton的经典论文。自此，DNN在语音识别中广泛应用	Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.
2013	微软在深度学习语音识别中的一些进展和成果	Deng, L., Li, J., Huang, J. T., Yao, K., Yu, D., Seide, F., ... & Gong, Y. (2013, May). Recent advances in deep learning for speech research at Microsoft. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8604-8608). IEEE.
2014	卷积神经网络在语音识别中的应用	Abdel-Hamid, O., Mohamed, A. R., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on audio, speech, and language processing, 22(10), 1533-1545.
2015	Attention模型在语音识别中的应用	Chorowski, J. K., Bahdanau, D., Serdyuk, D., Cho, K., & Bengio, Y. (2015). Attention-based models for speech recognition. In Advances in Neural Information Processing Systems (pp. 577-585).

发展分析

瓶颈

目前语音识别在非嘈杂环境的单说话人情景中已经可以取得超过人类语音识别的结果。可是在嘈杂环境中，尤其是鸡尾酒会问题（cocktail party）中，语音识别仍然有一段路需要走。噪声与人声的分离，不同人声的分离，不同距离的噪声人声分离等等，是目前语音识别的一大发展瓶颈。

未来发展方向

正如瓶颈中所描述的一样，嘈杂环境中的非特定人说话以及多数人说话的语音识别将是未来的一大发展方向。如何有效降低信噪比，分离对语音识别系统有用的人声信号和各种环境中的非特定噪声信号，仍然是研究的重点。

Contributor: Yuanchao Li

简介