长距离依赖 | 机器之心

简介

让我们从一些简单的问题入手：

WH-问题（wh-questions）：

你发现了什么？/你在和谁聊天？

•关系从句（relative clauses）：

我发现的物品/我与之交谈的那个人

•专题（topicalization）：

手册，我找不到

•难易程度形容词（easy-adjectives）：

我的房子很容易找到/帕特很难说话

可以看到上面的文字都需要其他元素来补充以使意思完整。而这个需要词汇填充的位置和它们的“填充物”（能够推导出该词汇的语料）在空间上相距甚远：

克里斯很容易认为，除了天才之外，任何人都不可能与____沟通。

这即是我们所称谓的“长距离依赖”。填充词往往具有与其所填充位置相关的语法属性。

[描述来源：Bender, E. M.; Sag, I. A.; Wasow, T. (2003).Syntactic Theory: a formal introduction(Second Edition).CSLI Publications.]

许多在文本处理上表现很好的模型都无法处理长距离依赖问题。以循环神经网络（RNN）为例，当我们处理短期依赖性时，循环神经网络工作得很好。当应用于像这样的问题：

The color of the sky is____

RNN被证明相当有效。这是因为该问题与陈述的语境无关。RNN不需要记住之前的信息，或者其含义，它只需知道大多数情况下天空是蓝的。因此预测将是：

The color of the sky is blue.

然而，一般的RNN无法理解输入蕴含的语境。当做出当前预测时，一些过去的信息无法被回忆，但是为了做出适当的预测，RNN需要记住这个语境。相关信息可能会被大量不相关数据从需要的地方分离出来。这正是RNN失败的地方。

这背后的原因是梯度消失的问题。我们知道，对于传统的前馈神经网络，在特定层上应用的权重更新是学习率、来自前一层的误差项以及该层输入的倍数。因此，特定层的误差项可能是先前所有层的误差的结果。当处理像sigmoid那样的激活函数时，随着我们移向起始层，其小的导数值（出现在误差函数中）会倍增。结果，随着移向起始层，梯度几乎消失，这些层也变的难以训练。

一个类似情况出现在了RNN中。RNN只有短期记忆，也就是说，如果我们在一小段时间之后需要这些信息是可行的，但是一旦大量的单词被输入，信息就会在某处丢失。

[描述来源：在调用API之前，你需要理解的LSTM工作原理|机器之心]

发展历史

描述

有关长距离依赖的问题应当是最先由Hockett在1952年讨论的，1957年，Chomsky的博士论文通过个人心理学的视角，对长距离依赖关系的输入及其与语言理论的关系进行了讨论。

目前针对这个问题一般的解决办法是使用长短期记忆网络（Long Short Term Memory networks，LSTM）。理论上来讲，RNN绝对有能力处理这种“长期依赖性”，人类可以通过仔细挑选参数来解决这种问题。然而，正如我们在前文所述，在实践中，RNN似乎无法学习它们。1994，Yoshua Bengio等学者深入探讨了这个问题。Sepp Hochreiter和Jürgen Schmidhuber于1997年回顾了他们的分析，提出了LSTM，能够很好的学习长距离依赖关系，并在之后被很多学者改善和推广。2015年Kelvin Xu等学者将这种与注意力有关的研究更进一步，提出了一种基于注意力（attention）的模型，并在三个基准数据集（Flickr9k，Flickr30k和MS COCO）上验证注意力的使用情况。

主要事件

年份	事件	相关论文/Reference
1952	Hockett讨论了长距离依赖的问题	Hockett, C. F. (1952). A formal statement of morphemic analysis.Studies in Linguistics.10:27–39.
1955	Chomsky的博士论文通过个人心理学的视角，对长距离依赖关系的输入及其与语言理论的关系进行了讨论	Chomsky, N. (1955). The logical structure of linguistic theory. PhD diss., Univ. of Pennsylvania
1994	Yoshua Bengio等学者深入探讨了为什么RNN无法处理长距离依赖问题	Bengio, Y.; Simard, P. and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.IEEE Transactions on Neural Networks.5(2): 157-166.
1997	Sepp Hochreiter和Jürgen Schmidhuber提出了LSTM	HochreiterS. Schmidhuber, J.(1997).Long Short-Term Memory. Neural Computation.9(8): 1735-1780.
2015	Kelvin Xu等学者提出了一种基于注意力（attention）的模型	Xu, K. et al. (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. arXiv:1502.03044v2.

发展分析

瓶颈

LSTM可以很好的解决长距离依赖的问题。

未来发展方向

目前的研究主要转到注意力模型（attention model）上，存储更多的记忆，实现从大量的输入信息（或历史信息）中选择出对当前决策有帮助的信息的功能，如引入基于内容寻址的外部记忆来提高网络容量。

Contributor: Yuanyuan Li

简介