Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

开放知识图谱选编自

最新知识图谱论文清单,就算看不懂也会忍不住收藏


EMNLP 2018

■ 论文解读 | 张良,东南大学博士,研究方向为知识图谱自然语言处理

本文主要关注 KG embedding 中三元组成立的时间有效性问题,比如三元组(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效时间段是 2003 年到 2009 年,这个使三元组有效成立的时间段被称为 temporal scopes。

这些 temporal scopes 随着时间的推移对许多数据集会产生影响(比如 YAGO,Wikidata),现有的 KG embedding 方法很少考虑到时间这一维度,因为它们假设所有的三元组总是永远正确的,可是现实中很多情况下不是这样。

本文提出了 HyTE 模型,HyTE 不仅能够利用时间导向进行知识图谱图推理,还能够为那些缺失时间注释的事实预测 temporal scopes。实验结果表明该模型与传统模型或者同类模型相比都有着突出的表现。

研究背景

知识图谱嵌入(Knowledge graph embedding)方法是将知识图谱中的实体和关系表示成连续稠密低维实值向量,从而可以通过向量来高效计算实体与关系的语义联系。从 2013 年 TransE 的提出,到后来一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是对 TransE 模型的扩展。

这些模型都没有考虑时间维度,一直将知识图谱当做静态来处理,这显然不符合事实。数据的暴涨与更新表明知识图谱本来就是动态的,所以后来有工作将时间信息考虑进去,但只是将时间序列作为 KG embedding 过程中的约束,没有明显地体现时间的特性。为此,本文提出的 HyTE 模型直接在学习的过程中结合时间信息。

论文模型

本文认为不仅是知识图谱中的实体可能会随着时间改变,实体间的关系也是如此。由于 TransE 模型不能处理多关系的情形,而 TransH 模型能够使实体在不同的关系下拥有不同的表示,所以本文受 TransH 的启发提出了一个基于超平面的时间感知知识图谱嵌入模型。 

考虑一个四元组 (h,r,t,[τsτe]),这里的 τs 和 τe 分别定义了三元组成立时间段的起始与截止。TransE 模型将实体和关系考虑到相同的语义空间,但是在不同的时间段,实体与关系组成的(h,r)可能会对应到不同的尾实体 t。

所以在本文的模型中,希望实体能够随不同的时间点有着不同的表示。为了达到这一目的,文中将时间表示成超平面(hyperplane),模型示意图如下:

ehet,er,分别表示三元组中头实体,尾实体以及关系所对应的向量表示,τ1 和 τ2 分别表示此三元组有效成立时间段的起始时间与截止时间。eh(τ1), er(τ1) 以及表示各向量在时间超平面 τ上的投影,最终,模型通过最小化翻译距离来完成结合时间的实体与关系 embedding 学习过程。

实验

当实验数据包含两部分:YAGO11k 和 Wikidata12k,这两个数据集抽取了 YAGO 以及 Wikidata 中带有时间注释(time annotations)的部分。通过 Link prediction 以及 Temporal scoping 两个实验任务与其它模型比较,实验结果如下:

实体预测结果

关系预测结果

Temporal Scoping预测结果(越小越好)

实验结果表明,HyTE 模型在相关任务上与其它模型相比有较为显著的提升。

EMNLP 2018

■ 论文解读 | 王梁,浙江大学硕士,研究方向为知识图谱自然语言处理

研究背景

机器阅读任务按照答案类型的不同,可以大致分为:

  • 分类问题从所有候选实体选择一个;

  • Answer Span:答案是输入文本的一个片段;

  • 生成式问题:模型生成一句话回答问题。

不同的数据集文档的差异也较大。如 SQuAD,CNN/DM 数据集来源于百科,新闻等文本,问题类型多为事实型,因而回答问题不需要综合全文多处进行综合推理,只需要包含答案的句子即可。而本文实验所用的数据集如 NarrativeQA 则来源于小说等,回答问题需要综合全文多处不相连片段进行推理,因此难度更大。 

本文提出在 NarrativeQA 等需要多跳推理的文本进行生成式问题回答的模型。人工抽样数据集样本分析发现,许多样本答案的推理单凭文本包含的信息是无法完成推理并回答的,需要引入外部知识库中的常识信息。本文提出在常规的机器阅读模型中引入 ConceptNet 中的常识信息。

Baseline模型

按照机器阅读模型的一般性结构,Baseline 模型可以分为 4 层:

1. Embedding Layer:问题和文档里的每个词用预训练的词向量和 ELMo 向量表示;

2. Reasoning Layer:重复执行 K 次推理单元,推理单元的内部结构是 BiDAF 模型的 attention 层;

3. Model Layer:最后再对文档的表示做 self-attention 和 Bi-LSTM

4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同时对词表和输入计算输出概率,每个词在当前位置被输出的概率为其在词表中被选中的概率和其在输入中被 copy 的概率之和。

改进模型:引入外部常识

常识挑选 

对每一个样本,需要中外部 KG 中选择与之相关的多跳路径,做法如下: 

1. 在 KG 中找出多跳路径,其中包含的实体出现在样本的问题或文档中;

2. 对这些路径中的实体节点按照出现次数或 PMI 打分;

3. 类似 beam search,从所有路径生成的输出中挑选出得分最高的一些路径,这些路径是对该样本可能有帮助的外部常识信息。

模型引入常识

引入外部常识通过修改 Reasoning Layer 中的基本单元。具体做法是,每条路径的 embedding 表示为其每个节点的文本 embedding 的简单拼接,修改后的 Reasoning Cell 在经过 BiDAF 的 attention 结构后,再对该样本的所有外部常识三元组路径做 attention 计算,该 attention 计算再次更改文档和问题中每个词的表示。 

实验结果

对比 Baseline 模型和引入外部常识的模型可见,引入外部常识能是模型在 BLEU 和 Rouge 等指标上取得不错的提升。

对模型做 ablation test,可以发现推理层的推理次数如果为 1,模型效果下降很多,这表明模型确实在利用多跳的路径信息。另外,ELMo embedding,以及经过 Reasoning 层后的 self-attention,都对模型的效果提升较大。

ISWC 2018

■ 论文解读 | 丁基伟,南京大学博士生,研究方向为知识图谱知识库问答

研究背景

面向知识库的语义问答是指将用户的自然语言问句转换为可以在知识库上执行的形式化查询并获取答案,其面临的挑战主要有以下几点:1)实体的识别和链接;2)关系的识别和链接;3)查询意图识别;4)形式化查询生成。

其中实体链接和关系链接是指将自然语言问句中的词汇(或短语)链接到知识库中对应的实体或关系。大多数现有问答系统依次或并行执行实体链接和关系链接步骤,而本工作将这两个步骤合并,提出了基于广义旅行商问题基于连接密度相关特征进行机器学习的两种联合链接方法。

下表展示了不同种类的链接方法的优缺点:

框架及方法

上图展示了本文提出的联合的实体关系链接框架(EARL,Entity and Relation Linking),主要包括如下两个步骤:

预处理步骤(左侧红框),包括如下三个子过程: 

1. 利用 SENNA 系统从输入的自然语言问句中抽取出若干关键词短语。对于图中输入的问句,这里抽取到的关键词短语是<founder,Tesla, SpaceX, born>。 

2. 对于每个关键词,使用基于字符嵌入(character embedding)的 LSTM 网络判断它是知识库中的关系还是实体。对于上个过程中的关键词短语,这一步将“founder”和“born”识别为关系, 将“Tesla”和“SpaceX”识别为实体。 

3. 为每个关键词短语生成候选实体或关系列表。对于问句中的实体名,利用预先收集的 URI-label 词典,以及 Wikidata 中的实体别名、sameas 关系等进行生成。对于关系词,利用 Oxford Dictionary API 和 fastText 扩展知识库上的关系名后进行关联。

联合消歧步骤(右侧黄框),主要包括本文提出的两个核心方法: 

1. 基于广义旅行商问题(GTSP)的消歧方法。如下图所示,该方法将每个关键词的候选 URI 放入同一个簇。边的权重被设置为两个 URI 在知识库上的距离(hop 数),而联合消歧过程被建模为在该图上寻找一条遍历每个簇的边权总和最小的路(头尾结点可以不同)。

对于 GTSP 问题的求解,本工作先将其转换为 TSP 问题,后使用 Lin-Kernighan-Helsgaun 近似算法进行求解。图中加粗的边表示该示例的求解结果。

2. 基于连接密度相关特征进行机器学习的消歧方法。对于每个关键词的所有候选 URI,分别抽取特征 Ri(候选列表中的排序位置),C(2 步以内可达的其他关键词的候选 URI 的数量),H(到其他关键词的候选 URI 的平均步数)三个特征,采用 XGBoost 分类器筛选最合适的候选。

下表总结了上述两个消歧方法的差异:

3. 额外的,本文提出了一种自适应实体/属性预测方法。如果消歧后某个实体/关系和它最终链接到的 URI 的置信度低于阈值,则可能预处理步骤的第二个子过程(实体/关系预测)有错误。在这种情况下,该工作会更改该关键词的实体/关系标签,重新执行候选生成和消歧步骤,从而获得整体精度的提升。

实验

本文选用了 LC-QuAD 问答数据集进行实验,包含 5000 个问句。其标准答案(实体/关系对应的 URI)采用人工标注的方法进行生成。除此以外本文还选用了现有的 QALD-7 问句集进行测试。 

实验结果如下表所示,和对比方法相比,EARL 在 MRR 值上有较大提升。 

实体链接结果:

关系链接结果:

IJCAI 2018

■ 解读 | 谭亦鸣,东南大学博士,研究方向为知识图谱问答、自然语言处理

论文动机

近年来,随着多语言知识图谱嵌入(Multilingual KG Embedding)的研究,实体的潜在语义表示以及跨语言知识推理等任务均取得一定成效,因此也推动了许多知识驱动的跨语言工作。然而,受限于各语言知识图谱之间较低的实体对齐(Entity Alignment)程度,跨语言推理的准确性往往不够令人满意。 

考虑到多语言知识图谱中具有对实体的文字性描述,文章提出一种基于嵌入(Embedding)的策略:通过利用图谱中实体的文字描述,对仅包含弱对齐(KG 中的 inter-language links,ILLs)的多语图谱做半监督的跨语言知识推理。 

为了有效利用图谱知识以及实体的文字描述,文章提出通过协同训练(Co-train)两个模块从而构建模型 KDCoE:多语言知识嵌入模块和多语言实体描述嵌入模块。

文章贡献如下:

1. 提出了一种半监督学习方法 KDCoE,协同训练了多语知识图谱嵌入和多语实体描述嵌入用于跨语言知识对齐;

2. 证明 KDCoE 在 Zero-shot 实体对齐以及跨语言知识图谱补全(Cross-lingual KG Completion)任务上的有效性;

论文方法

多语言知识图谱嵌入(KGEM)

知识模型(Knowledge Model)对齐模型(Alignment Model)两个部分构成,分别从不同角度学习结构化知识。 

知识模型:用于保留各语言知识嵌入空间中的实体和关系。文章采用了传统的 TransE 方法构建知识模型,并认为这种方法有利于在跨语言任务重中保持实体表示的统一性,且不会受到不同关系上下文带来的影响。其对应的目标损失函数如下:

其中,L 表示某种语言,(Li,Lj) 表示一组语言对,GL 表示语言 L 对应的知识图谱反映的是图谱中三元组 (h,r,t) 之间的相异度,r 是一个 positive margin,[x]+ 则表示取 x 的正值部分,表示一组伯努利负采样三元组,用于替换图谱三元组中的 h 和 t。

对齐模型:用于在不同语言的嵌入空间中获取跨语言关联。为了将不同语言间的知识关联起来,文章参照 MTransE 中的线性转换策略,其目标函数如下:

其中 (e, e') 是一组已知的对齐实体,当知识嵌入向量的维度为 k1 时,Mij 是一个的线性转换矩阵,用于将 Li 语言的实体向量转换为 Lj 语言。这里与 MTransE 方法不同的是,文章仅计算了跨语言实体嵌入而非三元组整体嵌入。

KGEM 的目标函数

其中,α 是一个正超参数

多语言实体描述嵌入(DEM)

DEM 过程包含两个部分:编码和跨语言嵌入。

编码:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 对多语言实体描述进行编码,可以理解为带有 self-attention 的 GRU 循环网络编码器。

文章希望利用 self-attention 机制使得编码器能够凸显实体描述句子中的关键信息,AGRU 中的 self-attention 可以定义为以下公式:

其中,ut 是由 GRU 中 st 产生的隐藏表示,attention 权值 at 则是由一个 softmax 函数计算得到,反映的是单词 xt 对于序列 X 的重要性,而后依据此权重与隐藏表示可以得到 self-attention 的输出 vt,|X|(输入序列的长度)用于防止 vt 失去原有的规模。 

在这个部分,作者也尝试了其他的编码框架,包括单层网络,CNN,ALSTM 等等,但 AGRU 取得了最好的性能。

跨语言嵌入部分:为了更好的反映出多语言实体描述的词级别语义信息,文章使用跨语言词嵌入方法用于衡量和找出不同语言间的相似词汇。大致流程可描述如下: 

首先,使用跨语言平行语料 Europarl V7 以及 Wikipedia 中的单语语料,对 cross-lingualBilbowa [Gouws et al., 2015] word embeddings 进行预训练。而后使用上述 embeddings 将实体描述文本转换为向量序列,再输入进编码器中。

DEM 学习目标:文章建立的编码器由两个堆叠的 AGRU 层构成,用于建模两种语言的实体描述。该编码器将实体描述序列作为输入,而后由第二层输出生成的 embedding。而后,文章引入了一个 affine 层,将上述各种语言的 embedding 结果投影到一个通用空间中,其投影过程由以下公式描述:

DEM 的目标是最大化各个实体描述 embedding 与对应的其他语言版本之间的 log 相似度,故可以将目标函数描述如下:

迭代Co-training的KDCoE模型

文章利用 KG 中存在的少量 ILLs 通过迭代的协同过程训练 KGEM 和 DEM 两个模块,过程大致描述如下: 

每次迭代中,各模块都进行一系列“训练-生成”的过程: 

1)首先利用已有的 ILLs 对模型进行训练;2)之后利用训练得到的模型从 KG 中预测得到以前未出现过的新 ILLs;3)而后将这些结果整合到已有 ILLs 中,作为下一轮迭代的训练数据;4)判断是否满足终止条件:本轮迭代中各模块不再生成新的 ILLs。

其算法细节描述如下图:

实验

实验相关细节

实验数据说明:文章实验数据来自 DBPedia 中抽取的子集 WK3160k,由英法德三语构成,其中每种语言数据中包含了 54k-65k 规模的实体。具体统计信息如下表:

文章分别在跨语言实体对齐,Zero-shot 对齐以及跨语言知识图谱补全等三个任务上进行实验。

其中,跨语言实体对齐选用的基线系统包括:LM,CCA,OT,ITransE 以及 MTransE 的三种策略;Zero-shot 对齐的基线系统为:Single-layer 网络,CNN,GRU,AGRU 的两种策略;知识图谱补全的基线系统为 TransE。

实验结果 

跨语言实体对齐:如下图所示,文章设置了三组评价指标,分别为:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR。

从结果上看,KDCoE 模型的性能远优于其他系统,且随着 Co-train 的迭代次数增加,系统的性能也都有较为明显的提升。

Zero-shot 对齐:Zero-shot 采用的评价指标与跨语言实体对齐相同,下图反映了 KDCoE 在 Zero-shot 对齐任务中的实验结果。

从实验结果上看,KDCoE 的效果依然是随着迭代次数的增加而上升,但从第一次迭代的结果可以发现,其优势的来源基础是 AGRU。这也反映出 AGRU 在编码上相对其他网络模型体现出了更优性能。 

跨语言知识补全:在跨语言知识补全任务中,文章采用 proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR 等两个评价指标。

根据 KDCoE-mono 的表现,可以推断,该模型成功继承了 TranE 保持结构化知识中实体和关系的稳定性。而 KDCoE-corss 则反映引入跨语言信息确实对知识补全的效果起到了明显提升。

总结

本文提出了一种基于 embedding 技术的跨语言知识对齐方法,通过引入 Co-train 机制,将 KG 中的关系上下文与实体描述信息有效的利用起来,以现有 KG 中的小规模 ILLs 为基础建立半监督机制,在跨语言实体对齐,知识补全上都起到了明显的效果。


IJCAI 2018



■ 论文解读 | 花云程,东南大学博士,研究方向为知识图谱问答、自然语言处理

论文动机

在以前的工作中,对话生成的信息源是文本与对话记录。但是这样一来,如果遇到 OOV 的词,模型往往难以生成合适的、有信息量的回复,而会产生一些低质的、模棱两可的回复。 

为了解决这个问题,有一些利用常识知识图谱生成对话的模型被陆续提出。当使用常识性知识图谱时,由于具备背景知识,模型更加可能理解用户的输入,这样就能生成更加合适的回复。但是,这些结合了文本、对话记录、常识知识图谱的方法,往往只使用了单一三元组,而忽略了一个子图的整体语义,会导致得到的信息不够丰富。 

为了解决这些问题,文章提出了一种基于常识知识图谱的对话模型(commonsense knowledge aware conversational model,CCM)来理解对话,并且产生信息丰富且合适的回复。

本文提出的方法,利用了大规模的常识性知识图谱首先是理解用户请求,找到可能相关的知识图谱子图;再利用静态图注意力(static graph attention)机制,结合子图来理解用户请求;最后使用动态图注意力(dynamic graph attention)机制来读取子图,并产生合适的回复。

通过这样的方法,本文提出的模型可以生成合适的、有丰富信息的对话,提高对话系统的质量。

论文贡献

本文贡献如下:

1. 首次尝试使用大规模常识性知识图谱来处理对话生成问题;

2. 对知识图谱子图,提出了静态/动态图注意力机制来吸收常识知识,利于理解用户请求与生成对话。

论文方法

Encoder-Decoder模型 

经典的 Encoder-Decoder 模型是基于 Seq2Seq 的。Encoder 模型将用户输入(user post)X 用隐状态 H 来表示,而 Decoder 模型使用另一个 GRU 来循环生成每一个阶段的隐状态。

其中 Ct 是上下文向量,通过注意力机制按步生成。最终,Decoder 模型根据概率分布生成了输出状态,并产生每一步的输出 token。

模型框架

如下图 1 所示为本文提出的 CCM 模型框架。

▲ 图1. CCM模型框架

如图 1 所示,基于 n 个词输入,会输出 n 个词作为回复,模型的目的就是预估这么一个概率分布:


也就是将图信息 G 加入到概率分布的计算中。

在信息读取时,根据每个输入的词 x,找到常识知识图谱中对应的子图(若没有对应的子图,则会生成一个特殊的图 Not_A_Fact),每个子图又包含若干三元组。在信息读取时,词向量与这个词对应的子图向量拼接,而子图向量是由采用静态图注意力机制生成的。

当生成回复时,采用动态图注意力机制来引用图信息,即读取每个字对应的子图和子图中的实体,并且在生成当前回复时,通过概率计算应该是生成通用词还是这个子图中的相关实体。

知识编译模块

如图 2 所示,为如何利用图信息编译 post 的示意图。

▲ 图2. 知识编译模块

如图所示,当编译到“rays”时,会把这个词在知识图谱中相关的子图得到(图 2 最上的黄色高亮部分),并生成子图的向量。每一个子图都包含了 key entity(即这里的 rays),以及这个“rays”的邻居实体和相连关系。

对于词“of”,由于无法找到对应的子图,所以就采用特殊子图 Not_A_Fact 来编译。之后,采用基于静态注意力机制,CCM 会将子图映射为向量 gi,然后把词向量 w(x_t) 和 gi 拼接为 e(xt)=[w(xt); gi],并将这个 e(xt) 替换传统 encoder-decoder 中的 e(xt) 进行 GRU 计算。 

对于静态图注意力机制,CCM 是将子图中所有的三元组都考虑进来,而不是只计算一个三元组,这也是该模型的一个创新点。当得到子图时,且这个子图由三元组 K 表示, K(gi)={k1,k2,…,k(NG)}。在计算时,就是将当前三元组的头实体与尾实体向量通过矩阵变换后相加,再经过正切激活函数后,与经过矩阵变换的关系进行点积,得到一个值。

而将这个词向量与所有三元组进行计算后,再经过 softmax,就得到了一个权重。把子图中所有头实体、尾实体按对相加,再基于权重计算加权和,就得到了图向量 gi。

知识生成模块

如下图 3 所示,为如何利用图信息生成回复的示意图。

▲ 图3. 知识生成模块 

在生成时,不同于静态图注意力机制,模型会读取所有相关的子图,而不是当前词对应的子图,而在读取时,读取注意力最大的就是图中粉色高亮的部分。生成时,会根据计算结果,来选择是生成通用字(generic word)还是子图中的实体。 

在进行 decoder 时,公式改为,而是指将生成的词向量,以及这个词来自的三元组向量进行拼接(如果生成的是一个通用词,那么三元组就是 Not_A_Fact)。

在这里,可以看到 GRU 的输入多了两个向量(来自于表示图信息的向量)和(表示三元组信息的向量)。

对于动态图注意力机制,是一种层次型的计算,即 CCM 先根据 post 相关的所有知识图谱子图来计算一个向量,再根据子图中的三元组再计算一个向量。对于上个阶段的隐状态输出 st,最终的是图向量 gi 的加权和。 

然后,对于每个子图中的三元组 kj,CCM 又计算了一次注意力,最终的是 kj 的加权和,权重为对应图 gi 的注意力权重与三元组 kj 的注意力权重之积。 

最终,每一个 step 的输出,是根据 st 来选择一个通用词或者子图中的实体。

损失函数

损失函数为预期输出与实际输出的交叉熵,除此之外,为了监控选择通用词还是实体的概率,又增加了一个交叉熵。公式如下:

其中 γt 就是选择的概率,而就是一个 Boolean 值,表示在实际输出 Y 中是选择了通用词还是实体。

实验

实验相关细节 

常识性知识图谱选用了 ConceptNet,对话数据集选用了 reddit 的一千万条数据集,如果一个 post-response 不能以一个三元组表示(一个实体出现于 post,另一个出现于 response),就将这个数据去除。然后对剩下的对话数据,根据 post 的词的出现频数,分为四类。 

基线系统选择了如下三个:只从对话数据中生成 response 的 Seq2seq 模型、存储了以 TransE 形式表示知识图谱的 MemNet 模型、从三元组中 copy 一个词或生成通用词的 CopyNet。 

在选用 metric 的时候,采用了刻画回复内容是否语法正确且贴近主题的 perplexity,以及有多少个知识图谱实体被生成的 entity score。

实验结果

如下图 4 所示,为根据 perplexity 和 entity score 进行的性能比较,可见 CCM 的 perplexity 最低,且选取 entity 的数量最多。并且,在低频词时,选用的 entity 更多。这表示在训练时比较罕见的词(实体)会需要更多的背景知识来生成答复。

▲ 图4. CCM与基线系统对比结果 

另外,作者还采用众包的方式,来人为审核 response 的质量,并采用了两种度量值 appropriateness(内容是否语法正确,是否与主题相关,是否有逻辑)与 informativeness(内容是否提供了 post 之外的新信息)。如下图 5 所示,为基于众包的性能比较结果。

▲ 图5. CCM与基线系统基于众包的对比结果

从图 5 中可见,CCM 对于三个基线系统来说,都有将近 60% 的回复是更优的。并且,在 OOV 的数据集上,CCM 比 seq2seq 高出很多,这是由于 CCM 对于这些低频词或未登录词,可以用知识图谱去补全,而 seq2seq 没有这样的知识来源。 

在 case study 中,当在 post 中遇到未登录词“breakable”时,seq2seq 和 MemNet 都只能输出一些通用的、模棱两可的、毫无信息量的回复。CopyNet 能够利用知识图谱输出一些东西,但是并不合适。而 CCM 却可以输出一个合理的回复。 

总结

本文提出了一种结合知识图谱信息的 encoder-decoder 方法,引入静态/动态图注意力机制有效地改善了对话系统中 response 的质量。通过自动的和基于众包的形式进行性能对比,CCM 模型都是优于基线系统的。

COLING 2018

■ 论文解读 | 谭亦鸣,东南大学博士,研究方向为知识图谱问答、自然语言处理

知识库问答研究旨在利用结构化事实回答自然语言问题,在网络中,简单问题占据了相当大的比例。本文提出在完成模式抽取和实体链接后,构建一个模式修正机制,从而缓解错误积累问题。

为了学习对“subject-predicate”(问题的实体-谓词)候选集的排序,本文提出将关系检测机制用于强化联合事实选择,多级别编码和多维信息将被用于强化整个模型过程。实验结果表明,本方法展现出非常强大的性能。

研究背景

简单知识库问答,指的是问答中仅需用到知识库中的一个事实即可给出答案的过程。其流程和可以描述为:从自然语言问句中识别实体,谓词,并与知识库中的内容构成完整三元组的过程。 

简单知识库问答目前存在的主要挑战包括: 

1. 同一单词(词语)在不同句子中的意义不同;

2. 不同的自然语言表达方式具有相同的含义;

3. 如何利用大规模知识库中的大量事实信息。

论文模型

在简单问答中,首先要做的是实体链接,常规的实体链接方法包括 n-gram 匹配,序列标注等等,但是这两个方法都有可能导致错误积累,从而无法找到准确的“实体-谓词”对。 

考虑到这些问题,本文首先使用模式抽取和实体链接,将可能的实体描述和问题模式提取出来,而后减少知识库中的候选实体数量。 

在模式抽取过程中,作者发现由于模型性能问题,抽取结果中存在一定比例的较差模式。为了应对这个情况,文章提出添加模式修正机制以提升模式抽取的质量。 

下一步工作就是找出最可能生成问题答案的“实体-谓词”对,对于这个问题,前人的工作中主要考虑使用问题模式与候选实体信息来选择合适的谓词。本文则引入了关系检测机制进行改进,其效果体现在限定了知识库中问题表达对应的谓词,从而引导候选实体的重排序。 

当问题所问实体在知识库中存在大量不同类型的重名实体时,先做关系推理或者实体链接都有可能引发无召回问题。对此,本文的策略是采用联合事实筛选,通过利用实体的名称信息和类别信息从不同角度描述实体。 

在确定谓词方面,作者采用唯一关系名分散词信息作为限定条件。

▲ 本文问答模型的示意图

同时为了准确保留原始问句的内容,本文将字符级别与词级别的编码结果进行合并,用于表达原始问句。

▲ 本文编码策略的示意图

实验

本文实验使用的数据集为 SimpleQuestions benchmark 提供的问答数据集,其中的每个问题都可以由 freebase 中的一个三元组回答。 

数据集分为三个部分:训练集规模为75910,验证集为10845,测试集为21687。

知识库则是从 freebase 中抽取的子集 FB2M (2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M (4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)。

实验评价指标为准确率,仅当问题对应的事实与模型得到的实体和谓词两者都匹配时,才算准确匹配。

从实验结果上看,本文方法相对过去的工作,取得了非常明显的提升。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论EMNLP 2018COLING 2018ISWC 2018IJCAI 2018知识图谱论文知识库问答系统机器学习LSTM注意力机制Encoder-DecoderSeq2Seq
7
相关数据
一飞智控机构

 一飞智控(天津)科技有限公司,2015年成立,国家级高新技术企业,注册资本800万元。公司专注于无人机飞行控制系统的研发与制造,为智能无人装备行业应用提供完整的控制系统解决方案。一飞智控核心团队由原中国科学院及北京航空航天大学、南京航空航天大学研发队伍组建而成,自2004年起开始核心技术的积累,率先提出为无人机造“大脑”的概念。在成就了多个国内商用无人机应用的“第一次”之后,于2015年正式成立一飞智控(天津)科技有限公司,并作为牵头企业入驻天津市泰达智能无人装备产业园。目前公司核心研发团队超过70人,其中具有博士学位人员占27.3%,硕士45.5%,被评为“全球前十大有影响力的飞行机器人研发团队”。

可扩展标记语言技术

可扩展标记语言,是一种标记语言。标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。如何定义这些标记,既可以选择国际通用的标记语言,比如HTML,也可以使用像XML这样由相关人士自由决定的标记语言,这就是语言的可扩展性。XML是从标准通用标记语言中简化修改出来的

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

fastText技术

Facebook开发的文本处理工具,是一个用于高效学习单词表示和句子分类的库。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

序列到序列技术

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

混乱度技术

衡量概率分布或概率模型预测样本能力的一个度量单位,其可以被用来比较概率模型的好坏,值越低表示在预测样本方面的效果越好。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

暂无评论
暂无评论~