从本质上说,语言模型的功能是尽可能多地封装所考虑的任务的语法、语义和语用特征。就其应用而言,语言模型用于表示一系列词语的概率分布。假设给定一个长度为$m$的序列,语言模型可以生成一个对应的$P ( w_1 , … , w_m ) $的概率。语言模型应用广泛,包括语音识别领域、OCR字符识别、手写体字符识别、信息检索等。通常分为两类:基于规则的语言模型和基于统计的语言模型。基于规则的语言模型又称文法型语言模型,人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识。现阶段以统计学为基础的统计语言模型广泛使用,包括n-gram语言模型、指数语言模型、基于神经网络的语言模型等。以bi-gram语言模型为例,句子I saw the red house对应的概率为:
[描述来源:Wikipedia,URL:https://en.wikipedia.org/wiki/Language_model ; Bellegarda J R. Statistical language model adaptation: review and perspectives[J]. Speech Communication, 2004, 42(1):93-108.]
发展历史
描述
语言模型应用广泛,在1975年、1976年间统计语言模型在应用上获得了成功,其后统计语言模型应用于多个领域,包括机器翻译、手写汉字识别、信息检索等。2003年,Benigo提出将词向量(word vector)的概念引用到基于神经网络的语言模型中,但这个模型参数较多,训练代价大。2010年,Tomas Mikolov提出了将循环神经网络(recurrent neural network)应用到语言模型中。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1975-1976 | J.K.Bake和F.Jelinek首次将隐马尔科夫模型(HMM)应用到语音识别领域,是统计语言模型首次在应用上获得成功 | J. K. Baker, “The DRAGON system—An overview,” IEEE Trans. Acoust., Speech Signal Processing, vol. ASSP-23, pp. 24–29, Feb. 1975. ; Jelinek F. Continuous speech recognition by statistical methods[J]. Proceedings of the IEEE, 1976, 64(4):532-556. |
3 | 1990 | Peter Brown将N-gram语言模型应用到机器翻译领域,用于统计目标语言文本出现的概率 | Brown P F, Cocke J, Pietra S A D, et al. A statistical approach to machine translation[J]. Computational Linguistics, 1990, 16(2):79-85. |
4 | 1992 | Srihari将统计语言模型与语法信息结合进行手写汉字识别 | Combining statistical and syntactic methods in recognizing handwritten sentences |
5 | 1998 | Pnoet和Corft首次将统计语言模型应用到信息检索中 | A language modeling approach to information retrieval |
6 | 2000 | Collins等人首次提出boosting判别语言模型 | Collins M, Koo T. Discriminative Reranking for Natural Language Parsing[J]. Proc Icml, 2000, 31(1):25-70. |
7 | 2003 | Yushaua Bengio等人引入了词向量的概念,提出了基于神经网络的神经网络语言模型 | Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(Feb): 1137-1155. |
8 | 2010 | Tomas Mikolov提出了循环神经网络语言模型,降低了模型参数的个数 | Song F, Croft W B. A general language model for information retrieval[C]//Proceedings of the eighth international conference on Information and knowledge management. ACM, 1999: 316-321. |
发展分析
瓶颈
语言模型虽然在很多领域都取得了进展,但是现阶段只能建立短距离的词语之间的依赖关系,无法很好地获得长距离的依赖。此外现阶段的语言模型多用到字,词的简单信息,很难获得深层的语言知识,这样就导致了语言模型的描述能力比较差。而当训练数据与测试数据不同源时,模型的性能会变得很差。
未来发展方向
对于语言模型来说,虽然现阶段应用较为广泛,但它仍然有很大的提升空间:
- 建立的语言模型能够反映词与词之间的长时依赖关系
- 语言模型能够更多的反映段落的深层含义,对于神经网络语言模型而言,这需要增加网络的深度
- 加强语言模型的语料自适应能力
- 词表规模的选择,这是影响神经网络语言模型的一个重要因素
Contributor: Yilin Pan