Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

语言模型

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源:维基百科
简介

从本质上说,语言模型的功能是尽可能多地封装所考虑的任务的语法、语义和语用特征。就其应用而言,语言模型用于表示一系列词语的概率分布。假设给定一个长度为$m$的序列,语言模型可以生成一个对应的$P ( w_1 , … , w_m ) $的概率。语言模型应用广泛,包括语音识别领域、OCR字符识别、手写体字符识别、信息检索等。通常分为两类:基于规则的语言模型和基于统计的语言模型。基于规则的语言模型又称文法型语言模型,人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识。现阶段以统计学为基础的统计语言模型广泛使用,包括n-gram语言模型、指数语言模型、基于神经网络的语言模型等。以bi-gram语言模型为例,句子I saw the red house对应的概率为:

[描述来源:Wikipedia,URL:https://en.wikipedia.org/wiki/Language_model ; Bellegarda J R. Statistical language model adaptation: review and perspectives[J]. Speech Communication, 2004, 42(1):93-108.]

发展历史

描述

语言模型应用广泛,在1975年、1976年间统计语言模型在应用上获得了成功,其后统计语言模型应用于多个领域,包括机器翻译、手写汉字识别、信息检索等。2003年,Benigo提出将词向量(word vector)的概念引用到基于神经网络的语言模型中,但这个模型参数较多,训练代价大。2010年,Tomas Mikolov提出了将循环神经网络(recurrent neural network)应用到语言模型中。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1975-1976

J.K.Bake和F.Jelinek首次将隐马尔科夫模型(HMM)应用到语音识别领域,是统计语言模型首次在应用上获得成功

J. K. Baker, “The DRAGON system—An overview,” IEEE Trans. Acoust., Speech Signal Processing, vol. ASSP-23, pp. 24–29, Feb. 1975. ; Jelinek F. Continuous speech recognition by statistical methods[J]. Proceedings of the IEEE, 1976, 64(4):532-556.

3

1990

Peter Brown将N-gram语言模型应用到机器翻译领域,用于统计目标语言文本出现的概率

Brown P F, Cocke J, Pietra S A D, et al. A statistical approach to machine translation[J]. Computational Linguistics, 1990, 16(2):79-85.

4

1992

Srihari将统计语言模型与语法信息结合进行手写汉字识别

Combining statistical and syntactic methods in recognizing handwritten sentences

5

1998

Pnoet和Corft首次将统计语言模型应用到信息检索中

A language modeling approach to information retrieval

6

2000

Collins等人首次提出boosting判别语言模型

Collins M, Koo T. Discriminative Reranking for Natural Language Parsing[J]. Proc Icml, 2000, 31(1):25-70.

7

2003

Yushaua Bengio等人引入了词向量的概念,提出了基于神经网络的神经网络语言模型

Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(Feb): 1137-1155.

8

2010

Tomas Mikolov提出了循环神经网络语言模型,降低了模型参数的个数

Song F, Croft W B. A general language model for information retrieval[C]//Proceedings of the eighth international conference on Information and knowledge management. ACM, 1999: 316-321.

发展分析

瓶颈

语言模型虽然在很多领域都取得了进展,但是现阶段只能建立短距离的词语之间的依赖关系,无法很好地获得长距离的依赖。此外现阶段的语言模型多用到字,词的简单信息,很难获得深层的语言知识,这样就导致了语言模型的描述能力比较差。而当训练数据与测试数据不同源时,模型的性能会变得很差。

未来发展方向

对于语言模型来说,虽然现阶段应用较为广泛,但它仍然有很大的提升空间:

  1. 建立的语言模型能够反映词与词之间的长时依赖关系
  2. 语言模型能够更多的反映段落的深层含义,对于神经网络语言模型而言,这需要增加网络的深度
  3. 加强语言模型的语料自适应能力
  4. 词表规模的选择,这是影响神经网络语言模型的一个重要因素

Contributor: Yilin Pan

简介