NAACL 2019论文独特视角|纠正归因谬误：注意力没有解释模型

NAACL 正式会议已于今年 6 月 2 日至 6 月 7 日在美国明尼阿波利斯市举行。据官方统计，此次 NAACL 2019 共收到论文 1955 篇论文，共接收论文 424 篇，录取率仅为 22.6%。其中收到长论文投稿 1198 篇，短论文 757 篇，今天分享给大家的是其中一篇涉及注意力模型的论文。

过往的研究常常有这样的归因谬误，认为带注意力机制的神经网络中，学出的注意力分布似乎能决定模型输出。这篇NAACL文章《Attention is not Explanation》，从对抗注意力机制和特征重要性两个维度，以丰富地实验指明、分析了这一谬误。

论文摘要：Attention mechanisms have seen wide adoption in neural NLP models. In addition to improving predictive performance, these are often touted as affording transparency: models equipped with attention provide a distribution over attended-to input units, and this is often presented (at least implicitly) as communicating the relative importance of inputs.However, it is unclear what relationship exists between attention weights and model outputs. In this work we perform extensive experiments across a variety of NLP tasks that aim to assess the degree to which attention weights provide meaningful “explanations" for predictions. We find that they largely do not. For example, learned attention weights are frequently uncorrelated with gradient-based measures of feature importance, and one can identify very different attention distributions that nonetheless yield equivalent predictions. Our findings show that standard attention modules do not provide meaningful explanations and should not be treated as though they do.

论文地址：https://arxiv.org/pdf/1902.10186.pdf

代码网址：https://github.com/successar/AttentionExplanation.

注意力机制

注意力机制是一种神经网络模型的结构，经常被用于NLP任务上。它在输入上引入了一个分布，称为注意力分布。注意力分布常常被认为解释了神经网络为何能成功应用于对应任务(Li, 2016)。

举一个情感分析任务中的例子。如下图左侧，为了解释模型输出负面情感的原因，过往文献通常画出模型学习到的注意力分布，并指出词“waste”上的注意力值最大。其暗含的意思是：不用怀疑啦，模型和人一样，都主要从这个负面词汇中推断出了整段话有负面情感。

然而，该文章却发现，保持模型其他参数不变，而仅修改注意力分布，使其主要部分在“was”和“myself”上，模型的输出结果不变化。此时要怎么解释呢？如果遵循过往推理，就得说“was”是个负面词汇，那便很可笑了。

如情感分析任务一样，文本分类任务、问答任务等NLP任务也经常把注意力分布作为解释模型输出的依据。所有这类推断，都面临不同注意力分布导致相同结果的问题。最严重的问题在于，当注意力分布被调整得和原始分布完全相反时，即对抗注意力分布（adversarial attention），模型输出仍可能相同。

事实上，该文进行了如下实验，说明这种调整是简单可行的。

对抗注意力分布

在8个经典NLP任务上，论文尝试构建了对抗注意力分布，如下图所示。不同的颜色代表不同的分类类别。可见，在标签变化很小（纵轴）时，注意力分布可以大不一样（横轴），即对抗注意力分布和原始分布的JS距离可以超过0.6。且这些JS距离大的样本占比不少，这说明对抗注意力分布广泛存在。

从映射的角度讲，注意力分布并不决定模型输出，即其他因素不变时，从注意力分布到输出空间的函数，往往不是双射，这一点符合直觉。关键的地方在于，过往在注意力分布上赋予了太多语义层面的信息，如分布概率高的地方说明对输出重要，于是常见一些以注意力分布值为温度的输入-输出热力图。对抗注意力分布的广泛存在，说明这一实践不像看上去的那样有理。

注意力分布与特征重要性的相关性

在神经网络模型的解释方面，除了注意力分布和输出间的热力图，还有一些工作，从传统机器学习引入特征重要性（feature importance），期望做出解释。比如，基于梯度（gradient）的重要性衡量标准，记为Tg，衡量的是所有其他因素不变，某一特征的微小扰动对输出的影响。又如，基于去除某特征（Leave one out）的衡量标准，记为Tloo，衡量的是所有其他因素不变，去除某一特征对输出的影响。虽然这些衡量标准只关心单一特征，远远称不上完善的解释，但一定程度它们确实能提供明确的某一特征和模型输出的关系。

如下图所示，在八个常用数据集上，Tloo和Tg之间的相关性，平均就比Tloo和注意力分布间的相关性强（大约强0.2Tloo）。文中同样给出这一相关性也比Tg和注意力分布间的相关性强。

需要注意，特征重要性并非解释模型的黄金标准，且各种解释之间的相关性到底需要多大，并无一个标准。然而，注意力分布与各个衡量特征重要性的标准均表现出较弱的相关性，确实督促研究者重新审视过往认为注意力分布有解释能力的判断。

结语

注意力机制学出来的注意力分布并不能决定神经网络模型的输出。为找到解释神经网络的方法，我们需要另辟蹊径。另一个有趣的问题是，为什么不使用对抗学习时，通常学出的注意力分布表现得像能解释模型一样。这也有待探索。

参考文献：
1.Jain, Sarthak and Byron C. Wallace. “Attention is not Explanation.” ArXiv abs/1902.10186 (2019): n. pag.
2.Jiwei Li, Will Monroe, and Dan Jurafsky. 2016. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220.

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论NAACL 2019注意力机制

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia