Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Jiying作者H4O编辑

如何解释AI做出的决策?一文梳理算法应用场景和可解释性

本文结合《Explanation decisions made with AI》指南,重点对算法的应用场景和可解释性分析进行了梳理总结。


英国的 Information Commissioner’s Office (ICO)和 The Alan-Turing Institute 联合发布了《Explanation decisions made with AI》指南。该指南旨在为机构和组织提供实用建议,以帮助向受其影响的个人解释由 AI 提供或协助的程序、服务和决定,同时帮助机构和组织遵循欧盟 GDPR 等与个人信息保护相关的政策要求。该指南分为三个部分,第 1 部分:可解释 AI 的基础知识;第 2 部分:可解释 AI 的实践;第 3 部分:可解释 AI 对机构 / 组织的意义。指南最后给出了主流的 AI 算法 / 模型的适用场景,以及对这些算法 / 模型的可解释性分析,可作为实践任务中结合应用场景特点选择能够满足领域要求的可解释性的 AI 算法 / 模型的参考。

本文结合《Explanation decisions made with AI》指南,重点对算法的应用场景和可解释性分析进行了梳理总结。此外,我们还解读了一篇医学领域可解释性方法的最新论文—《评估药物不良事件预测中基于注意和 SHAP 时间解释的临床有效性》,以了解关于可解释性方法的最新研究进展。

1、算法的应用场景和可解释性分析

《Explanation decisions made with AI》指南给出了主流的 AI 算法 / 模型的适用场景,以及对这些算法 / 模型的可解释性分析,作者对主流模型的可解释性情况进行了梳理总结。

算法类型

可能的应用

解释

线性回归 (LR)

在金融(如信用评分)和医疗保健(根据生活方式和现有的健康状况预测疾病风险)等高度监管的行业中具有优势,因为它的计算和监督都比较简单。

由于线性和单调性,具有较高的可解释性。随着特征数量的增加(即高维度),可解释性会变差。

逻辑回归

线性回归一样,在高度管制和安全关键部门有优势,特别是在基于分类问题的用例中,如对风险、信用或疾病的是/否决策。

良好的可解释性,但不如LR,因为特征是通过逻辑函数转换的,与概率结果的关系是对数,而不是相加。

正则化回归(LASSO和Ridge)

线性回归一样,在要求结果可理解、可获得和透明的高度监管和安全关键部门中具有优势。

由于通过更好的特征选择程序改善了模型的稀疏性,因此具有高度的可解释性。

广义线性模型(GLM)

适用于目标变量具有需要指数族分布集的约束条件的用例(例如,如果目标变量涉及人数、时间单位或结果的概率,则结果必须具有非负值。)

良好的可解释性水平,跟踪了LR的优点,同时也引入了更多的灵活性。因为其链接功能,确定特征的重要性可能不如用加性特征简单的LR那么直接,一定程度上失去了透明度。

广义加性模型(GAM)

适用于预测变量和响应变量之间的关系不是线性的(即输入-输出关系在不同时间以不同速度变化),但需要最佳可解释性的用例。

良好的可解释性,因为即使在存在非线性关系的情况下,GAM也可以用图形清晰地表示预测变量对响应变量的影响。

决策树

由于产生DT结果的分步逻辑对非技术用户来说很容易理解(取决于节点/特征的数量),这种方法可用于需要透明度的高风险和安全关键的决策支持情况,以及相关特征数量相当少的许多其他用例。

如果DT保持相当小的规模,那么可解释的程度就很高,这样就可以从头到尾跟踪逻辑。与LR相比,DT的优势在于前者可以适应非线性和变量交互,同时保持可解释性。

规则/决定清单和集

与DT一样,由于产生规则列表和规则集的逻辑对非技术用户来说很容易理解,这种方法可用于需要透明度的高风险和安全关键的决策支持情况,以及其他许多需要明确和完全透明地说明结果的用例。

规则列表和规则集是所有最佳性能和不透明的算法技术中具有最高程度的可解释性之一。然而,它们也与DT有相同的可能性,即当规则列表变长或规则集变大时,可理解的程度就会消失。

基于案例的推理(CBR)/原型和批评

CBR适用于任何基于经验的领域。推理用于决策的任何领域。例如,在医学上,当以前类似案例的成功经验指向决策者建议的治疗方法时,就会在CBR的基础上推荐。CBR扩展到原型和批评的方法意味着更好地促进对复杂数据分布的理解,以及增加数据挖掘的洞察力、可操作性和可解释性。

CBR是可以通过设计来解释的。它使用从可解释的设计中提取的例子。它使用从人类知识中提取的例子,以便将输入的特征吸收到人类可识别的表征中。它通过稀疏的特征和熟悉的原型保留了模型的可解释性。

超稀疏线性整数模型(SLIM)

SLIM已被用于需要快速、简化而又最准确的临床决策的医疗应用中。一个被称为风险校准SLIM(RiskSLIM)的版本已被应用于刑事司法领域,表明其稀疏线性方法对生态犯罪的预测与目前使用的一些不透明模型一样有效。

由于其稀疏和易理解的特点,SLIM为以人为中心的决策支持提供了最佳的可解释性。作为一个手动完成的评分系统,它还确保了实施它的引导员-用户的积极参与。

Naïve Bayes

虽然这种技术由于不现实的特征独立性假设而被认为是naive的,但众所周知它是非常有效的。它的快速计算时间和可扩展性使其适合于高维特征空间的应用。
常见的应用包括垃圾邮件过滤、推荐系统和情感分析。

Naive Bayes分类器具有高度的可解释性,因为每个特征的类成员概率是独立计算的。然而,假设独立变量的条件概率在统计上是独立的,这也是一个弱点,因为没有考虑特征的相互作用。

K近邻(KNN)

KNN是一种简单、直观、多功能的技术,应用广泛,但对较小的数据集效果最好。由于它是非参数性的(对基础数据分布不做任何假设),它对非线性数据很有效,同时不失可解释性。常见的应用包括推荐系统、图像识别、客户评级和排序。

KNN的工作假设是,通过查看它们所依赖的数据点与产生类似类别和结果的数据点的接近程度,可以预测类别或结果。这种关于近似性/接近性的重要性的直觉是对所有KNN结果的解释。当特征空间保持小的时候,这样的解释更有说服力,所以实例之间的相似性仍然是可以得到的。

SVM

SVM对于复杂的分类任务来说是非常通用的。它们可以用来检测图像中物体的存在(有脸/无脸;有猫/无猫),对文本类型进行分类(体育文章/艺术文章),以及识别生物信息学中感兴趣的基因。

可解释性水平低,取决于维度特征空间。在上下文确定的情况下,使用SVM应辅以辅助解释工具。

ANN

ANN最适合于完成高维特征空间的各种分类和预测任务,即有非常大的输入向量的情况。它们的用途可能包括计算机视觉、图像识别、销售和天气预报、药品发现和股票预测、机器翻译、疾病诊断和欺诈检测。

由于曲线(极端非线性)的倾向和输入变量的高维度,导致ANN非常低的可解释性。ANN被认为是 "黑盒 "技术的缩影。在适当的情况下,应当引入解释工具辅助ANN的使用。

随机森林

随机森林经常被用来有效地提高单个决策树的性能,改善其错误率,并减轻过拟合。它们在基因组医学等高维问题领域非常流行,也被广泛用于计算语言学、计量经济学和预测性风险建模。

由于在bagged数据和随机特征上训练这些决策树群的方法、特定森林中的树木数量以及单个树木可能有数百甚至数千个节点的可能性,可能导致随机森林方法非常低的可解释性。

集合方法

集合方法有广泛的应用,跟踪其组成学习者模型的潜在用途(包括DT、KNN、随机森林、NaiveBayes,等等)。

集合方法的可解释性因使用何种方法而不同。例如,使用bagging技术的模型,即把在随机数据子集上训练的学习者的多个估计值平均起来,其原理可能难以解释。对这些技术的解释需求应该结合其组成学习者的情况分别考虑。


2、评估药物不良事件预测中基于注意力机制和 SHAP 时间解释的临床有效性


可解释的机器学习是一个新兴的领域,它尝试以更人性化的方式帮助我们理解黑盒分类器模型的决策。特别是对于医疗领域,可解释性对于提供公开透明的分析和合法的决策结果至关重要。具备可解释性,一线医疗利益相关者就可以信任模型的决定并采取适当的行动。此外,全面的可解释性能够确保医疗实施的用户可能获取监管权利,例如根据欧盟通用数据保护条例(GDPR):"获得解释的权利"。

在医疗领域,深度学习模型应用于电子健康记录(Electronic Health Record,EHR)数据获得了很好的效果。例如循环神经网络(RNN)能够有效捕捉 EHR 中时间相关的和异质的数据复杂性。然而,RNNs 的一个主要缺点是缺乏内在的可解释性。在过去的研究过程中,已经产生了几种使 RNNs 更具解释性的方法,例如,通过引入注意力机制使模型本身更易解释,如用 RETAIN;事后可解释性框架(如 SHAP)可以应用于概述 RNNs 的时间解释等等。
 
RETAIN[2]:用于分析 EHR 数据以预测病人未来出现心力衰竭的风险。RETAIN 受注意力机制启发,通过使用一个两层的神经注意力模型,并对 EHR 数据进行逆序输入系统,模拟医生满足病人需求及分析病人记录时专注于病人过去诊疗记录中某些特殊临床信息、风险因素的过程,在保证预测结果准确性(Accuracy)的同时确保了结果的可解释性(interpretability)。


SHAP[3]:来自于博弈论原理,SHAP(SHapley Additive exPlanations)为特征分配特定的预测重要性值,作为特征重要性的统一度量,能够解释现代机器学习中大多数的黑盒模型,为机器学习模型量化各个特征的贡献度。给定当前的一组特征值,特征值对实际预测值与平均预测值之差的贡献就是估计的 Shapley 值。


然而,关于医学预测领域 RNN 的可解释技术所提供的时间解释的质量,还存在着研究空白。支持和反对使用注意力作为解释方法的论点都存在,一些证据表明,使用注意力得分可以提供足够的透明度来解释单个特征如何影响预测结果。而还有一些证据则质疑了注意力机制的有效性,因为注意力值和更直观的特征重要性测量之间的相关性很弱。在实践中,用于模型解释的可视化平台已经成功地利用了注意力分数来为医学预测提供解释。然而,使用注意力值的整体效用还需要更深入的验证,特别是与利用其他可解释方法(如 SHAP)相比。

本文的主要目标是探索具有内在可解释性的 RNN 通过注意力机制能够在多大程度上提供与临床兼容的时间解释,并评估这种解释应该如何通过应用事后方法来补充或取代,例如对黑盒 RNN 的 SHAP。本文具体在药物不良事件(Adverse Drug Event,ADE)预测的医学背景下探讨这个问题。结合我们所解读的《Explanation decisions made with AI》指南,这篇文章所讨论的是典型的必须应用非线性统计技术的情况。在上一章节的梳理中,指南已经明确“由于曲线(极端非线性)的倾向和输入变量的高维度,导致 ANN 非常低的可解释性。ANN 被认为是 "黑盒" 技术的缩影。在适当的情况下,应当引入解释工具辅助 ANN 的使用。”。因此,本文所做的工作就是为应用于医学领域的 ANN 方法引入适当的辅助解释工具(注意力机制和 SHAP 时间解释)。当然,正如我们在之前的解读中分析的,在一些应用场景中,简单的白盒模型 / 方法无法满足应用需要,为了保证较高的准确度 / 预测率,有时必须采用黑盒算法 / 模型。而如何在这种情况下通过引入辅助解释工具帮助模型 / 系统的用户更好的理解解释,就是下面这篇论文会详细介绍的了。

2.1 方法介绍

令ε={P1,...,Pn}表征 n 个病人的数据库。Pj 表征 K 个病人就诊数据记录,Pj = {x_1, . . , x_k},其中,x_k 发生在时间点 t_k,包含一组描述该次诊疗的医疗变量,考虑到第 j 个病人在时间点 t-1 的病史数据 Pj={x_1, . . . , x_t-1},我们的任务是预测时间点 t 的 ADE 的发生,并准确地解释为什么使用病人病史的整个时间结构来预测这种 ADE。为了解决这个问题,本文将 RNN 模型和可解释性技术结合起来,对全局和局部解释的方法进行了比较和临床验证的分析。

SHAP 框架确定了加法特征重要性方法的类别,以提供模型无关的解释。SHAP 已经成为一种流行的模型可解释性方法,因为它拥有多种理想的特性,即全局一致的解释,这是其他事后方法所不能提供的,在这些方法中,局部定义的预测可能与全局模型的预测不一致。SHAP 建立在使用博弈论中的 Shapley 值的基础上,在博弈论中,通过将不同的特征视为联盟中的不同玩家来计算特定特征值对选定预测的影响。这些特征中的每一个都可以被看作是对预测的相对贡献,这些贡献可以通过计算可能的联盟中的边际贡献的平均值而被计算为 Shapley 值。

Shapley 值(表示为φ_ij),可以理解为每个特征值 x_ij 对每个样本 i 和特征 j 的预测偏离数据集的平均预测的程度。在本研究中,每个医疗变量的 Shapley 值是针对病史中的每个时间点计算的,以解释每个医疗变量对预测的影响是如何高于或低于基于背景数据集的预测平均值的。

递归神经网络(RNN)是前馈神经网络模型的概括,用于处理连续的数据,拥有一个持续的内部状态 h_t,由 j 个隐藏单元 h_j 组成,作为处理连续状态之间的依赖关系的记忆机制,在本文案例中具体是指跨时间点的病人诊疗信息。

本文希望采用一个基本的 RNN architechure 与 SHAP 相结合,它应该能够达到与 RETAIN 相当的性能水平,以帮助直接比较有效性解释方法,而不会因为过度追求可解释性而影响了模型本身的性能。具体的,本文基本 RNN 模型的内部状态由门控递归单元(GRU)组成,通过迭代以下方程定义:


其中,r_j 为复位门,它决定了一个状态中的每一个第 j 个隐藏单元的前一个状态被忽略的程度;h_t-1 是上一个隐藏的内部状态;W 和 U 是包含由网络学习的参数权重的矩阵;z_j 是一个更新门,决定了隐藏状态应该如何被更新为新的状态 h_new;(h_j)^t 表示隐藏单元 h_j 的激活函数;sigm( )表示 sigmoid 函数;◦是 Hadamard 积。

本文采用与 SHAP 相结合的 GRU 架构,包括两个 128 个单元的堆叠的 GRU 隐藏层,然后是 dropout 层,最后是一个全连接层,通过一个 softmax 函数产生输出分类概率ˆy。

为了收集基于注意力的时间解释,本文采用了 RETAIN 的 RNN 架构,在预测阶段,基于注意力的贡献分数可以在单个医学变量层面上确定。这个 RNN 首先由输入向量 x_i 的线性嵌入组成:


v_i∈R^m 是二进制输入向量 x_i∈R^V 的嵌入,W_emb∈R^(m xV)是嵌入的权重向量,m 是 V 个医疗变量的嵌入维度。使用两个 RNNs,RNNa 和 RNNb 分别用于生成访问和可变水平的注意力向量α和β。注意力向量是通过在时间上向后运行 RNN 来生成的,这意味着 RNNα和 RNNβ都以相反的顺序考虑访问嵌入。最后,我们得到每个病人在第 i 次就诊前的情况向量 c_i:


然后,最终预测结果的计算方法如下:


基于注意力的贡献得分可以确定对某一预测贡献最大的访问和医疗变量。分数可以用下式计算:


在本文研究中,根据 RNN-GRU 模型修改了 SHAP,使用的是原始 SHAP 实现的修改代码库。作者采用了深度学习模型的梯度解释方法,该方法基于预期梯度,使用 1000 个随机样本的背景数据,为每个预测提供 Shapley 值的近似值。作者表示,这种特殊的近似处理并不保证 SHAP 的每一个属性,但对于本文的目标来说是合适的。

2.2 验证方法介绍

本研究使用的数据库由 1,314,646 名患者的诊断、药物和文本记录组成,这些记录来自斯德哥尔摩大学的瑞典健康记录研究银行(HealthBank);这是一个匿名的患者记录数据库,最初来自瑞典斯德哥尔摩卡罗林斯卡大学医院的 TakeCare CGM 患者记录系统。诊断由《国际疾病和相关健康问题统计分类》第十版(ICD-10)中的标准化代码组成。药物是根据解剖学治疗化学分类系统(ATC)进行编码的。为了减少问题的复杂性,并增加病人的匿名性,非 ADEICD-10 和 ATC 代码被减少到其更高层次的等级类别,通过选择每个代码的前三个字符获得。此外,就诊是以月为单位定义的,这意味着在一个日历月内分配给病人的所有代码和药物的组合构成了一次就诊记录。患者需要拥有至少三次这样的记录,相当于至少三个月的数据。与 ADE 相关的词袋特征也被提取为二元医学变量。本研究使用了 1813 个医疗变量,包括 1692 个 ICD-10 编码,109 个 ATC 编码和 12 个关键词特征。

评估实验将数据随机划分为训练集、验证集和测试集,比例分别为 0.7、0.1 和 0.2。在验证集上呈现最佳 AUC 的训练 epoch 所对应的模型配置部署在测试集上。为每位患者分配了一个二进制标签,以表示在他们最后一次就诊时是否有 ADE。每个病人样本都是由包含医疗变量的就诊序列组成的,删除最后一次就诊记录。为了适应因 ADE 相对罕见而导致的类别不平衡问题,作者通过对多数类别的低度取样创建了一个平衡的训练集,其中利用了整个训练集的一个随机分区。为了说明模型行为的可变性,作者使用 3 个随机模型和数据分区配置的平均值生成最终结果。在直接性能比较中,RNN-GRU 被配置成与 RETAIN 相同的多对一格式,并使用跨熵损失函数进行训练。默认情况下,模型输出大于 0.5 就会映射出一个正向 ADE 预测结果。

为了建立一个用于评估所研究的可解释方法的临床基本事实,本文实验过程中总共招募了 5 位医学专家,他们拥有医学学位和丰富的临床药理学经验。在第一阶段的结构化调查中,这些专家被要求对通过 SHAP 和注意力方法确定的全局医学变量进行打分,最终收录了每种方法的前 20 个变量。评分包括从 - 5 到 5 的整数,0 不包括在内,其中 - 5 代表该变量与不发生 ADE 的可能性有非常高的关联,而 5 代表变量与发生 ADE 的可能性有非常高的关联。然后计算出临床医生变量得分的平均值。其次,实验要求医学专家对 10 个有代表性的个体病人记录中的医疗变量进行同样的评分,这些记录包含了直接发生在两个 RNN 都正确预测的 ADE 之前的医疗变量的历史。这是一个案例研究任务,受试者对与过敏相关的 ADEs T78.4、T78.3 和 T78.2 的发生有关的变量进行评分。此外,受试者还被要求考虑变量本身的重要性、与其他变量的相互作用,以及过敏性疾病发生前的时间段。考虑时间的方法是将相同医疗变量的历史记录作为月度窗口输入 RNN 模型。临床医生提供的平均分数被用作评估可解释方法对同一批(10 份)病人记录所提供的解释的基本事实。

本文使用 Top-k Jaccard 指数比较两种可解释方法与临床专家得分的相似性,该指数定义为交集大小除以原始集合中排名最高的前 k 个子集的联合大小。排名是根据从临床专家反应的平均值或从可解释性方法返回的 Shapley 值或注意力贡献分数分别计算出的降序绝对分数来定义的。最后,向医学专家展示了如何将解释方法可视化的示例,并要求他们思考这些解释是否适用于现实生活中的临床情况。

2.3 验证结果

表 1 给出了 RETAIN 与 RNN-GRU 配置在 AUC 和 F1-Score 方面的性能比较,由表 1 中的结果可看出,用于生成解释的模型在两个模型中的性能相似,RETAIN 的性能略胜一筹。

表 1. 在多对一预测配置中为所选架构指定的 ADE 预测的 ROC 曲线下的经验测试集面积和微型 F1 分数

2.3.1  全局特征重要性

图 1 和图 2 是两种方法对医学变量的前 20 个全局重要性排名,显示了平均绝对 SHAP 值,以及数据测试集中顶级特征的平均绝对关注值。图 3 显示的是所述的利益相关者参与方法产生的临床专家平均绝对分数,用于对医学变量进行评分。为清晰起见,作者通过计算所有病人就诊中出现特定医疗变量的每个例子的贡献系数分数的平均绝对值,来报告注意力贡献分数的全局重要性。

图 1. 根据 RETAIN 模型的平均注意力贡献得分,排名最前的医学变量。ATC 代码前缀为 "M"

图 2. 根据平均 SHAP 值对 RNN-GRU 模型输出的影响,排名靠前的医疗变量。ATC 代码前缀为 "M"。标记为 KWord * 的关键词特征

图 3. 根据临床专家定义的分数,排名靠前的医疗变量。ATC 代码前缀为'M'

表 2 给出了 SHAP 和注意力排名与医学专家排名的 top-k Jaccard 指数比较结果,由表 2 可看出与注意力排名相比,SHAP 在每个 k 值上都提供了与医学专家更相似的总体解释。

表 2. 可解释性方法和临床专家对最重要的医疗变量的排名之间的 Top-k Jaccard 相似性比较

2.3.2  过敏症 ADEs 的个别解释的案例研究

表 3 给出了过敏症 ADEs 案例研究的结果,将 10 个有代表性的案例的平均临床专家得分排名与注意力和 SHAP 提供的同等解释得分排名进行比较。对于每个 Jaccard 指数,所选的前 k% 基于注意力的得分与临床得分最相似。

表 3. 可解释性方法和临床专家对单个病人记录中最重要的医疗变量的平均 Top-k% Jaccard 相似度比较

2.3.3  对临床遇到的问题进行可视化解释的反馈

图 4 展示了 SHAP 的时间解释,表 4 给出了注意力机制的对应时间解释。SHAP 的解释是通过 SHAP 的特征相加的性质来提供的,以便直观地看到医疗特征的存在或不存在是如何通过它们在每个时间点的 Shapley 值的总和来定义预测的。对于注意力的解释,这种可视化是不可能的,因为贡献值只反映相对重要性。

受试者得到了两种方法的描述,并被要求回答:他们更喜欢哪种解释,他们在理解解释时面临哪些挑战,以及对改进解释的建议。首先,5 位专家中的 4 位更喜欢 SHAP 提供的解释,原因是它是一个更简单的解释,能够比注意力解释更有效地理解 ADE 风险的完整观点。其次,受试者的主要顾虑是,解释中提供的信息太多,在大多数临床上无法使用,而且解释一个变量的缺失是如何导致风险的也不直观。改进的建议是,在可能的情况下显示更少的医疗变量,以提高理解解释的效率;其次,确保使用这种解释的临床医生得到详细的培训。

图 4. 向临床专家展示 SHAP 的解释。ADE 真正阳性预测的示例,显示用 SHAP 评估的 7 个病人就诊时间的 ADE 风险的发展,最后一次就诊提示有 ADE。赋值 = 0 和 = 1 分别表示没有或存在导致风险的变数

表 4. 与图 4 相对应的真阳性 ADE 解释的示例,使用 RETAIN 模型与药物、诊断和文本数据。访问得分和预测得分指的是相应的 ADE 代码的 softmax 概率

2.4 文章讨论 

首先,本文实验表明 RETAIN 和 RNN-GRU 模型的预测性能结果相似。这一发现对于临床有效性评估很重要,因为我们不希望诱发一种偏见,即某一方法产生的解释在临床上的有效性较差,这是由于模型的性能较差,而不是解释方法本身的原因。此外,考察图 1 和图 2 中的全局特征解释,根据与图 3 中的临床专家排名的比较,这两个排名都是独特的,在医学上基本符合 ADE。

SHAP 为每个 top-k Jaccard 指数提供了更多的临床验证的全局解释,这在很大程度上受到了它对没有出现在注意力排名中的文本特征的高排名的影响。就单个解释而言,注意力为每个 top-k Jaccard 指数提供了最具有临床有效性的解释,这表明,由于注意力具有捕捉和利用相关领域知识的明显能力,不应该将其作为一种可解释的方法加以否定。

最后,从图 4 和表 4 中医学专家对解释的反馈中得到的重要启示是,由于 SHAP 在可视化特征对预测的贡献方面具有加法特性,因此它能提供更紧凑和高效的解释。这种紧凑性对于效率优先的实时临床会诊是至关重要的。另一方面,注意力机制不能提供同样的紧凑性或加法性,因此对于详细的离线解释或不受时间限制的临床会诊可能更可取。

3、总结

由 ICO 和 The Alan-Turing Institute 共同发起的 "解释用人工智能做出的决定(Explanation decisions made with AI)"(2020 年)是对使用人工智能系统的组织中的问责制和透明度要求的实际转化的一次广泛探索。

在过去的十几年中,AI 算法 / 模型获得了巨大的发展,从 “白盒” 不断改进为“黑盒”,不管是产业界还是学术界,都可以看到大量追求 AI 决策性能提升的工作,将识别率提升 1%、将预测准确度提升 0.5%、在复杂背景环境下提升输出准确度、提高推荐排序的准确性等等。随着数字经济的发展,国内外都越来越重视算法 / 模型的公平性、透明性、可解释性和问责制。为了让技术更好的服务于人类,而不是让人类越来越被算法所奴役,解释用 AI 做出的决策相信是未来大家都会越来越关注的问题,我们也期待更多更有效、更可行的可解释性方法、工具的出现。

本文参考引用的文献
[1] Information Commissioner’s Office (ICO)& The Alan-Turing Institute,Explanation decisions made with AI,2020 May 2020 - 1.0.47
[2] E. Choi, M. T. Bahadori, J. Sun, J. Kulas, A. Schuetz, and W. Stewart, “Retain: An interpretable predictive model for healthcare using reverse time attention mechanism,” in Advances in Neural Information Processing Systems, 2016, pp. 3504–3512.
[3]S. M. Lundberg and S.-I. Lee, “A unified approach to interpreting model predictions,” in Advances in neural information processing systems, 2017, pp. 4765–4774.
机器之心技术分析师专栏
机器之心技术分析师专栏

由来自世界各地的专业分析师为你解读前沿进展,技术热点和经典论文。我们的分析师团队由来自于各大名校的硕士和博士,以及一线研究机构的研究员组成。

理论可解释性
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

广义线性模型技术

在统计学上, 广义线性模型 (Generalized linear model) 是一种应用灵活的线性回归模型,简称GLM。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。此模型假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~