本期推荐的论文笔记来自 PaperWeekly 社区用户 @hawksilent。本文是曼彻斯特大学发表于 ACL 2018 的工作,文章提出了一种新的基于图的神经网络关系抽取模型。
文章在没有使用任何外部工具的情况下,在 ACE 2005 数据集上对模型进行了测试,并将结果与 SPTree 系统进行了对比。实验结果显示,这篇文章提出的模型与当前最先进的 SPTree 系统相比,两者的性能没有明显的统计学差异。
关于作者:卢靖宇,西安电子科技大学硕士,研究方向为自然语言处理。
■ 论文 | A Walk-based Model on Entity Graphs for Relation Extraction
■ 链接 | https://www.paperweekly.site/papers/2289
■ 作者 | Fenia Christopoulou / Makoto Miwa / Sophia Ananiadou
引言
当一句话中存在多种关系时,不同关系之间往往会存在一定的联系,即目标实体对的关系可能会受到同一个句子中其他实体间关系的影响。例如,如下图中虚线所示:“Toefting”既可以通过介词“in”以直接的方式与 “capital”建立关系,也可以通过“teammates”以间接的方式与“capital”建立关系。
因此,在进行关系抽取(RE)时需要同时考虑这些关联关系,借此来对实体之间的依赖关系建模。然而,现有的大多数 RE 模型在抽取关系时往往会忽略不同关系间的这种关联性。
针对这一情况,这篇文章提出了一种基于实体图的神经关系抽取模型,该模型用图的方式来表达一句话中多个实体间存在的多种关系。句子中的实体被表示为图中的节点,实体间的关系则构成图的定向边,模型用一个实体及其上下文来初始化一条边,这样,任意两个实体之间就会形成由多个边连接组成的、长度不等的多条路径。模型通过迭代的方式,将两个实体之间多条路径逐渐聚合为一条直连路径,该直连路径即对应于实体关系的最终表示。
本文的创新点和贡献主要有以下三个方面:
1. 提出一种基于路径的神经图模型,能够处理一句话中存在多种实体及多个关系的关系抽取任务;
2. 提出一种迭代算法,可以将两个实体之间多个不同长度的路径融合为一条直连路径;
3. 通过实验证实,文章提出的模型在不使用任何外部句法工具的情况下,即可达到与当前最先进算法相近的性能。
模型
文章提出的模型由 5 层组成,如下图所示:嵌入层(embedding layer),BLSTM 层(BLSTM Layer),边表示层(edge representation layer),路径融合层(walk aggregation layer),分类层(classification layer)。
模型的输入为句子中单词的词嵌入,利用这些词嵌入生成实体对的向量表达形式。实体对的表示向量包含以下信息:目标实体对、目标实体对的上下文单词、上下文单词与实体对的相对位置以及实体对之间的路径。在分类器中,这些表示向量将被用于预测实体对的关系类型。
嵌入层
负责生成维度分别为 nw、nt、np 向量,分别对应于单词、实体的语义类型、目标实体对的相对位置。单词和语义类型分别映射为实值向量 w 和 t。目标实体对的相对位置由句子中单词的位置来决定。以第 1 节中的例子为例,“teammates”与“capital”的相对位置为 -3,“teammates”与“Toefting”的相对位置为 +16。文章利用实值向量 p 表示这些相对位置。
BLSTM层
每个句子的词嵌入将输入倒一个双向长短期记忆网络(BLSTM)中,BLSTM 输出一个新的词嵌入 h,该词嵌入考虑了单词的序列信息。对于句子中的每一个单词 t,其在 BLSTM 中前向网络和反向网络的输出将被连接成一个 ne 维向量,即。
边表示层
BLSTM 输出的词嵌入在这一层将被进一步分为两个部分:目标实体对的表示向量以及目标实体对特定上下文的表示向量。
目标实体对的上下文可以用句子中除已知实体外的其余全部单词来表示。实体对的具体表示方法如下:
一个目标实体对包含两个实体 ei 和 ej。如果一个实体由 I 个单词组成,则求这 I 个单词的 BLSTM 向量的平均值,用该平均值作为实体的 BLSTM 向量,即,其中 I 表示组成实体 e 的单词的数量。
首先,为每对实体创建一个表示向量,然后构造每个实体对的上下文的表示向量。实体 ei 的表示向量由以下几部分连接而成:实体的 BLSTM 向量 ei,实体类型的表示向量 ti,以及实体 ei 与 ej 相对位置的表示向量 pij。类似的,对于实体 ej 用 pji 表示其与实体 ei 的相对位置。最终,实体对可以表示为:和。
然后,构建上述实体对上下文的表示向量。对于目标实体对 (ei,ej) 上下文的每一个单词 ωz,其表示向量由以下几部分连接而成:单词 ωz 的 BLSTM 向量 ez,单词 ωz 的语义类型的表示向量 tz,单词 ωz 与实体 ei、ej 的相对位置的表示向量(ωz 与 ei 的相对位置表示 pzi,ωz 与 ej 的相对位置表示 pzj)。
综上,目标实体对的上下文单词的最终表示为:。对于每一个句子,其所有实体对的上下文表示向量可以用一个 3 维矩阵 C 表示,矩阵的行和列分别对应实体,矩阵的深度对应上下文单词。
之后,通过注意力机制将每对目标实体的上下文表示向量聚合为一个向量。根据Zhou et al. 2016 提出的方法,计算目标实体对上下文单词的权重,然后计算它们的加权平均值:
其中,表示可训练的注意力向量,α 表示加权向量,为实体对上下文表示向量加权平均后的结果。
最后,将目标实体对的表示向量与其上下文的表示向量连接起来。通过使用一个全连接线性层,其中 ns<nm,以此来降低结果向量的维度。该向量即为节点 i 和 j 之间的边(或单位路径):。
路径融合层
模型的主要目的是通过使用实体之间的间接关系来判断实体之间的直接关系。因此,本层的目标是:将实体对之间的多个不同长度的路径融合成一条路径。为了达成这一目标,模型将一个句子表示成一个有向图,其中图的节点表示句子中的实体,图中的边表示两个节点(实体)之间的关系。
目标实体之间的单位长度路径表示为,以此作为一个基本的构建模块,可进一步用于创建和聚合两个实体之间长度为 l(l≥1) 的路径。
基于路径的算法可以看成两步处理过程:路径构建和路径融合。在第一步处理过程中,通过一种改进的非线性变换将图中两个连续边联合起来:
其中,表示实体 ei 和 ej 之间长度为 λ 的路径,⨀ 表示元素乘法,σ 表示 sigmoid 非线性函数,为一个可训练的权值矩阵。等式 (2) 得到一个长度为 2λ 的路径。
在路径融合步骤中,模型将初始路径(长度为 λ)和扩展路径(长度 2λ)线性地结合起来:
其中,β 为权重,用于表示路径的重要程度。
综上,当 λ=1 时,利用等式 (3) 可创建一个长度为 2 的路径。之后,取 λ=2,再次使用等式 (3) 创建一个长度为 4 的路径。不断重复上述过程直到达到预期的最大路径长度,即 2λ=l。
分类层
在整个网络的最后一层,将上一层的输出输入到一个使用 softmax 函数的全连接层:
其中,是权值矩阵,nr 表示关系类型的总数目,br 表示偏置向量。
实验
文章在 ACE 2005 的关系抽取任务数据集上对提出的模型进行了测试。
上表所示为模型与 SPTree 系统在 ACE2005 数据集上性能的比较,第一行为 SPTree 系统得分,第二行为基线模型得分,第三行为使用了注意力机制的基线模型得分,余下三行为文章提出的模型使用不同长度路径时的得分。表中显示了准确率 P、召回率 R 和 F1 得分三项指标。
准确率指标P:虽然准确率并没有随着基于路径的图模型的使用以及路径长度的增加而线性提高,甚至还要低于基线模型,但模型在不同路径长度下的准确率 P 均与 SPTree 系统十分接近,证明基于路径的图模型在关系抽取任务中的有效性,只是性能还有待提升。
召回率指标R:模型召回率随着路径的增加而逐渐提高,直到路径增加到 l=8 时发生回落。说明增加路径长度是提升真正例识别数量的一种有效手段,也从侧面验证了通过实体的间接关系来识别目标实体对直接关系的可行性和有效性。
F1得分:图中,基线模型的 F1 得分为 61.4%,在所有模型中为最低。通过使用注意力机制可以将其 F1 得分提升 1.3 个百分点至 62.7%。在此基础之上,使用基于路径的模型,模型 F1 得分随着路径长度的增加而增加,l=4 时模型 F1 得分最高为 64.2%,当路径长度增加至 8 时 F1 得分出现回落。若仅从 F1 得分指标看,文章模型在关系提取任务中的性能已与当前比较先进的算法十分接近。
下表所示为,在拥有不同实体数量的句子中,使用不同长度路径时模型的 F1 得分。其中,第一行表示路径长度,第一列表示句子中实体的数量。观察可知,当句子中实体数量较少时,基于路径的图模型与普通模型相比优势并不明显,甚至还略显不如。但当句子中的实体数量较多时,基于路径的图模型与普通模型相比性能提升明显,说明基于路径的图模型适用于处理句子中实体数量较多的情况。
除了上述实验之外,文章还将模型与 Nguyen and Grishman 2015 提出的 CNN 模型进行了对比。实验中,将路径长度设置为 l=4,得到的 P/R/F1(%) 分别为 65.8/58.4/61.9,而 CNN 模型相应的得分分别为 71.5/53.9/61.3。对比发现,文章模型的 F1 得分高于 CNN 模型 0.6 个百分点。
总结
当前,在关系抽取任务中使用最多的是 RNNs 及其各种改进算法,但这些方法都没有考虑句子中关系之间的依赖性,在处理句子中存在多个实体对的情况时没有充分利用实体间的间接关系。与这些方法不同,这里介绍的文章,采用基于路径的实体图模型,在识别目标实体对的关系时充分使用实体间的间接关系。
虽然,也有一些其他的算法,也是针对句子中存在多种关系的情况(Gupta et al., 2016; Miwa and Sasaki, 201421; Li and Ji, 2014)。但是,这些算法无法对已知实体路径建模。
本文通过实验,证明了基于路径的图模型在关系抽取任务中的可行性和有效性。虽然从实验结果看,其性能与当前最先进的算法相比还存在一定差距,但是将基于路径的图模型引入关系抽取任务是一种新的思路,对此类模型的研究目前尚未大规模展开,因而模型性能暂时不佳也实属正常,这就为我们下一步开展后续工作提供了研究思路和提升空间。
整体而言,这篇文章的启发性意义大于其模型的实用意义。期待下一步在此思路的基础上进一步提升模型性能。