事后解释VS自解释，牛津CS博士小姐姐134页毕业论文探索神经网络内部构造

如何解释深度神经网络对于人工智能的发展具有重要的作用，也吸引了越来越多学界和业界人士的注意。在这篇长达 134 页的博士论文中，一位来自牛津大学的计算机科学博士生对这一课题进行了深入的探讨，带我们走进深度神经网络的世界。

近年来，深度神经网络正在计算机视觉、自然语言处理和语音识别等多种领域发挥着重要作用，推动了人工智能的发展。但是，深度神经网络仍存在一些局限性，例如这些模型的决策过程通常无法向用户解释。

但同时，在医疗、金融、法律等各个领域，了解人工智能系统决策制定背后的原因至关重要。因此，研究人员已经探索出了解释神经模型的一些方向。

10 月 6 日，牛津大学计算机科学博士生、且继续攻读XAI博士后的 Oana Camburu 在推特上公开了自己的博士论文《解释深度神经网络》（Explaining Deep Neural Networks），详尽全面地介绍了不同类型的深度神经网络解释方法，并表示「社区中该领域的研究正在增长，非常高兴自己进行了相对深入的挖掘。」

在这篇博士论文中，作者深入探究了解释深度神经网络的两个主要方向。第一个方向包括基于特征的事后（post-hoc）解释方法，即旨在解释已经训练和固定模型的方法，并提供输入特征方面的解释，如文本 token 和图像超像素。第二个方向包括生成自然语言解释的自解释（self-explanatory）神经模型，即具有内置模块且能够生成模型预测解释的模型。

这篇博士论文具有以下几方面的贡献：

作者揭示了仅使用输入特征来解释模型具有一定的难度。她指出，对于某些模型和实例而言，存在着不止一种 ground-truth 特征解释，所以一种解释（或解释器）的真实性取决于实践中偏好的 ground-truth 解释类型；
作者提出了一种自动验证真实性的框架，借助于这个框架，基于特征的 post-hoc 解释方法可以描述它们想要解释的模型的决策制定过程。这种框架是通用的，并可以在不同任务和域上实例化，以提供用于测试基于特征事后解释方法的完整性测试；
为了探索生成为自身生成自然语言解释的自解释神经模型方向，作者在斯坦福自然语言理解推理（Stanford Natural Language Inference, SNLI）数据集的基础上创建了一个包含约 570K 个人类书面自然语言解释的大型数据集，并将这种解释增强的数据集称为 e-SNLI；
作者证明了当前自解释模型在为预测生成自然语言解释时，会产生不一致的解释。为此，她提出了一种简单却有效的对抗框架，从而防止产生不一致的自然语言解释。

机器之心对该论文的核心内容进行了简要介绍，感兴趣的读者可以阅读原论文。

论文地址：https://arxiv.org/pdf/2010.01496.pdf

解释深度神经网络的重要性

研究表明，神经网络成功的关键因素是其具备深度这一能力，即成功的神经网络可以由大量的非线性函数组成。直观地讲，多层非线性函数使网络可以学习原始数据和预测之间各种抽象级别的特征。但是，这些都是以可解释性为代价的。这是因为为大量非线性函数的复杂组成提供人类可理解的解释是一个未能解答的困难问题。

因此，在诸如健康诊断、信用额度或刑事司法等对安全至关重要的应用中，人们可能仍然更喜欢采用准确性较低但人类可解释的模型，例如线性回归和决策树。

在 MNIST 数据集上训练的 4 层深度的软决策树可视化图。来源：Nicholas Frosst 和 Geoffrey Hinton 的 2017 论文《Distilling a Neural Network Into a Soft Decision Tree》。

对于神经网络决策过程的质疑是有道理的，因为已经有研究表明，看似非常准确的此类系统可以轻松地依靠数据集中的伪相关性（也称为统计偏差或伪影）来提供正确答案。研究表明，在实践中使用这种依赖伪相关性的模型非常危险。

黑盒系统中不可信的另一个原因是这些系统自身可能存在着一些主观偏见，例如种族主义、性别歧视或者其他类型的歧视或主观性。

此外，大量的对抗攻击表明，这些看似高度准确的神经网络具有脆弱性。神经网络中的对抗性攻击在自然语言处理和语音识别等其他领域也具有相当高的成功率。对抗性攻击揭示的深度神经网络的脆弱性使人们对这些方法的潜在学习决策过程产生了怀疑。

因此，为了使神经网络系统赢得广泛的公众信任，并确保这些系统确实是公平的，必须为这些模型的决策给出人类可理解的解释。

事后解释（Post-hoc） VS 自解释（Self-explanatory）方法

越来越多的多样化研究不遗余力地解释深度神经网络，这些方法在很多方面都存在着很大差异。事后解释和自解释时当前最主要的两种神经网络解释方法。

事后解释是旨在解释已经训练和固定的目标模型的独立方法。例如 LIME（Ribeiro 等人于 2016 年提出）就是一种事后解释方法，它通过在模型预测的邻域上学习可解释的模型（如线性回归）来解释目标模型的预测。如前文所述，这种解释方法针对的是文本 token 和图像超像素，即所谓的基于特征。

Shapley 解释器和最小充分子集（minimal sufficient subset）解释器分别提供了至少两种 ground-truth 基于特征的解释。

目前，基于特征的事后解释方法比较流行，也不容易出现解释偏见，但是真实性需要验证。这就引出了第二种方法：自解释。

自解释模型是目标模型，这些模型将解释生成模块集成到自身架构中，以便它们为自己的预测提供解释。从较高的层面而言，自解释模型具有两个相互关联的模块：预测器模块，即模型中专门用于预测手头任务的部分；解释生成器模块，作为模型的一部分，它为预测器所做的预测提供解释。此外，自解释模型不是必须对解释做出监督。

作者使用一个解释生成器（explanation generator）增强了 BiLSTM-Max 模型。具体而言，作者将特征向量 f 连接到单层 LSTM 解码器，既作为一种初始状态，又在每个时间步上级联到词嵌入输入。由此创建了一个新的模型 BiLSTM-Max-PredExpl，具体结构如下图 5.2 所示：

两种解释方法各有利弊

研究人员在实践中需要根据具体情况来选择适当的解释方法。通常而言，自解释模型的预测器和解释生成器是一起训练的，解释生成器的存在会影响预测器的训练。而事后解释方法则不同，它对已训练和固定目标模型做出的所有预测都不会造成影响。因此，当带有额外解释生成器的增强型神经网络的任务性能显著低于仅训练用于执行任务的神经网络时，研究人员可能更倾向于使用事后解释方法的模型。

另一方面可能出现如下情况，利用解释生成器增强神经网络并联合训练它们，可能会促使手头任务的性能更好。这可能是由于模型架构中存在额外指导，或者存在对解释的额外监督。

举例而言，在情感分析任务中，Lei 等人（2016 年）获得的结果是，在不对解释进行任何监督的情况下，添加中间解释生成器模块不会削弱性能。又如，在常识问题解答的任务上，Rajani 等人（2019 年）通过带有监督的自解释模型，实现了比仅训练用于执行任务的神经网络更好的性能。

因此，事后解释和自解释这两类方法各有利弊。

作者简介

这篇论文的作者是牛津大学计算机科学博士生 Oana-Maria Camburu，她来自罗马尼亚。Oana-Maria Camburu 曾获国际数学奥林匹克竞赛（IMO）银牌，目前的主要研究方向是机器学习。此外，她的论文曾被 ACL、EMNLP 等人工智能顶会收录。

以下是这篇博士论文的章节目录：

理论深度神经网络牛津大学