让我们从一些简单的问题入手:
WH-问题(wh-questions):
你发现了什么?/你在和谁聊天?
•关系从句(relative clauses):
我发现的物品/我与之交谈的那个人
•专题(topicalization):
手册,我找不到
•难易程度形容词(easy-adjectives):
我的房子很容易找到/帕特很难说话
可以看到上面的文字都需要其他元素来补充以使意思完整。而这个需要词汇填充的位置和它们的“填充物”(能够推导出该词汇的语料)在空间上相距甚远:
克里斯很容易认为,除了天才之外,任何人都不可能与____沟通。
这即是我们所称谓的“长距离依赖”。填充词往往具有与其所填充位置相关的语法属性。
[描述来源:Bender, E. M.; Sag, I. A.; Wasow, T. (2003).Syntactic Theory: a formal introduction(Second Edition).CSLI Publications.]
许多在文本处理上表现很好的模型都无法处理长距离依赖问题。以循环神经网络(RNN)为例,当我们处理短期依赖性时,循环神经网络工作得很好。当应用于像这样的问题:
The color of the sky is____
RNN被证明相当有效。这是因为该问题与陈述的语境无关。RNN不需要记住之前的信息,或者其含义,它只需知道大多数情况下天空是蓝的。因此预测将是:
The color of the sky is blue.
然而,一般的RNN无法理解输入蕴含的语境。当做出当前预测时,一些过去的信息无法被回忆,但是为了做出适当的预测,RNN需要记住这个语境。相关信息可能会被大量不相关数据从需要的地方分离出来。这正是RNN失败的地方。
这背后的原因是梯度消失的问题。我们知道,对于传统的前馈神经网络,在特定层上应用的权重更新是学习率、来自前一层的误差项以及该层输入的倍数。因此,特定层的误差项可能是先前所有层的误差的结果。当处理像sigmoid那样的激活函数时,随着我们移向起始层,其小的导数值(出现在误差函数中)会倍增。结果,随着移向起始层,梯度几乎消失,这些层也变的难以训练。
一个类似情况出现在了RNN中。RNN只有短期记忆,也就是说,如果我们在一小段时间之后需要这些信息是可行的,但是一旦大量的单词被输入,信息就会在某处丢失。
[描述来源:在调用API之前,你需要理解的LSTM工作原理|机器之心]
发展历史
描述
有关长距离依赖的问题应当是最先由Hockett在1952年讨论的,1957年,Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论。
目前针对这个问题一般的解决办法是使用长短期记忆网络(Long Short Term Memory networks,LSTM)。理论上来讲,RNN绝对有能力处理这种“长期依赖性”,人类可以通过仔细挑选参数来解决这种问题。然而,正如我们在前文所述,在实践中,RNN似乎无法学习它们。1994,Yoshua Bengio等学者深入探讨了这个问题。Sepp Hochreiter和Jürgen Schmidhuber于1997年回顾了他们的分析,提出了LSTM,能够很好的学习长距离依赖关系,并在之后被很多学者改善和推广。2015年Kelvin Xu等学者将这种与注意力有关的研究更进一步,提出了一种基于注意力(attention)的模型,并在三个基准数据集(Flickr9k,Flickr30k和MS COCO)上验证注意力的使用情况。
主要事件
年份 | 事件 | 相关论文/Reference |
1952 | Hockett讨论了长距离依赖的问题 | Hockett, C. F. (1952). A formal statement of morphemic analysis.Studies in Linguistics.10:27–39. |
1955 | Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论 | Chomsky, N. (1955). The logical structure of linguistic theory. PhD diss., Univ. of Pennsylvania |
1994 | Yoshua Bengio等学者深入探讨了为什么RNN无法处理长距离依赖问题 | Bengio, Y.; Simard, P. and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.IEEE Transactions on Neural Networks.5(2): 157-166. |
1997 | Sepp Hochreiter和Jürgen Schmidhuber提出了LSTM | HochreiterS. Schmidhuber, J.(1997).Long Short-Term Memory. Neural Computation.9(8): 1735-1780. |
2015 | Kelvin Xu等学者提出了一种基于注意力(attention)的模型 | Xu, K. et al. (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. arXiv:1502.03044v2. |
发展分析
瓶颈
LSTM可以很好的解决长距离依赖的问题。
未来发展方向
目前的研究主要转到注意力模型(attention model)上,存储更多的记忆,实现从大量的输入信息(或历史信息)中选择出对当前决策有帮助的信息的功能, 如引入基于内容寻址的外部记忆来提高网络容量。
Contributor: Yuanyuan Li