2019/08/12 15:02

李成江作者

KDD 2019 | JOIE：联合知识图谱实例和本体概念的通用表示学习

许多大规模知识图谱将知识组织成两个视图：以抽象概念和常识概念组成的本体视图，和以本体概念实例化的特定实体组成的实例视图。现有的知识图谱表示方法仅侧重于其中一个视角下的知识表示，JOIE使用跨视图关联模型（Cross-view Association Model）和内部视图模型（Intra-view Model）对知识图谱进行多方面的表示学习，得到的嵌入表示具备（1）本体视图和实例视图各自的知识结构，和（2）本体视图自身与实例间的层次结构。

论文题目：Universal Representation Learning of Knowledge Bases by Jointly Embedding Instances and Ontological Concepts

论文作者：Junheng Hao， Muhao Chen， Wenchao Yu， Yizhou Sun， Wei Wang

论文地址：http://web.cs.ucla.edu/～yzsun/papers/2019_KDD_JOIE.pdf

代码地址：https://github.com/JunhengH/joie-kdd19

研究动机

许多大规模知识图谱都具备两个视图下的知识：以抽象概念（例如：Person、Artist）及概念间关系（例如：isA、livesIn）组成的本体视图，和以实例（例如：Barack Obama）与实例间关系（例如：has_award）组成的实例视图。如下图所示：

当前的知识表示方法大多只对两个视图中的一个进行了设计，而同时对两个视图的知识进行建模则有利于：1）保留实例表示的丰富信息；2）概念对实例的高度概括性，利于对极少被观察到的实例进行分类。但联合考虑实例与概念也会带来如下挑战：

实例与概念、关系（实例间关系）与元关系（概念间关系）往往在词形上有很大差异但又存在语义相关，使得现有方法难以同时对次进行建模；
现有的实例与概念间的上下位关系（isA）就实例规模而言是很少的，而链接两个视图最重要的就是isA关系；
实例视图的规模比概念规模要大很多，且概念间存在层次结构。

提出方法

针对以上挑战，作者提出使用跨视图关联模型（Cross-view Association Model）和内部视图模型（Intra-view Model）对知识图谱进行多方面的表示学习方法JOIE。跨视图关联模型注重将实例与概念进行关联，内部视图模型则注重实例视图内部的实例、本体视图内部的概念各自的结构学习。下面将详细介绍两个模块。

1.跨视图关联模型（Cross-view Association Model）

基于不同的假设，作者提出了两种跨视图关联模型：跨视图分组（Cross-view Grouping，CG）和跨视图转换（Cross-view Transformation，CT）。

跨视图分组（CG）可以被看作是基于分组的正则化，它假设本体视图和实例视图可以被嵌入表示到同一空间中，并强制任何所有属于概念c的实例e都与c在表示空间上位置相近。因此优化的目标为：

其中γCG是hinge loss中的超参，S表示具有isA关系的实例与概念关系对。

与CG不同，跨视图转换（CT）允许两个视图的向量空间彼此完全不同，但可以通过一个变换将其对齐在一起，即

，这里使用的是非线性仿射变换

。所以优化的目标定义为：

其中γCT是hinge loss中的超参。如下为两个子模块的示意图：

2.内部视图模型（Intra-view Model）

内部视图模型目标是在两个向量空间中分别保留每个视图中的原始结构信息。由于本体视图与实例视图中的关系语义相关但又不同，因此更适合将其分别建模。这里作者分了默认内部视图模型（Default Intra-view Model）和层次感知的视图模型（Hierarchy-Aware Intra-view Model for the Ontology）两个部分来对知识图谱的内部进行建模。

默认内部视图模型（Default Intra-view Model）即使用现有的知识图谱表示学习方法对两个视图分别进行学习。本文作者选择了较为经典的TransE[1]，DistMult[2]和HolE[3]分别进行实验，各自的得分函数如下：

优化目标即最小化所有三元组（包括实例间三元组和概念间三元组）的hinge loss：

其中γG为超参。总的loss会增加参数α1用于平衡两个视图的loss：

默认内部视图模型并不能对本体视图的概念间上下位关系进行很好的建模，所以作者提出层次感知的视图模型（Hierarchy-Aware Intra-view Model for the Ontology）用于表示概念间subclass_of结构。这里设计方法类似CT，即给定一个具备subclass_of关系的概念对，认为存在非线形变换将粗粒度的概念（上位概念）映射为细粒度的概念（下位概念）：

其中为需要学习的参数。同样地，可以定义本体视图层次感知的优化目标：

因此，总的内部视图模型优化目标为：

其中α2和α3为平衡每一部分loss的超参。

3.两个视图的联合训练

结合视图内模型和跨视图关联模型，JOIE使用AMSGrad[4]最小化如下hinge loss：

其中ω为平衡两个模型的超参。

实验分析

数据集方面，由于现有方法大多只关注对一个视图的知识建模，缺少融合两个视图特点的公开评测数据。所以作者从YAGO和DBpedia构建了两个更符合真实知识图谱结构的数据集YAGO26K-906和DB111K-174。数据集的相关信息统计如下：

作者使用如上所述的数据集在知识图谱补全（KG Triple Completion）和实体分类（Entity Typing）两个任务上对JOIE的性能进行了评测。

1.知识图谱补全（KG Triple Completion）

知识图谱补全任务目标是补全知识图谱缺失的关系或实体以组成正确的事实三元组。该任务可分为实例视图的知识补全和本体视图的知识补全两个子任务。Baselines方面使用的是经典的TransE，DistMult和HolE，以及分别对概念和实例进行建模的TransC[5]。方法中注明“base”的为用两组参数分别学习两个视图的知识，“all”增加联系两个视图的关系type_of，并用同一组参数同时学习两个视图的知识。实验结果如下：

可以看到，在DB111K-174的本体视图上，JOIE的效果显著地比baselines高了近10个百分点，这表明了融合实例视图的知识有益于概念视图的知识学习。对比使用不同的内部视图模型，基于翻译的方法要优于基于相似度的模型，这是由于TransE受到图稀疏性的影响相对小一点。考虑本体视图层次结构、使用CT的JOIE在实例视图中有很好的效果。

2.实体分类（Entity Typing）

实体分类任务就是给定实例为其预测所属分类（概念）。这里使用的baselines包括TransE，DistMult，HolE和MTransE[6]。实验结果如下：

可以看到，考虑本体视图层次结构、使用CT的JOIE在两个数据集上均有很好的发挥。

3.案例分析

除此之外，作者还对实验进行了一些案例分析，可以归纳为以下两点：

（a）JOIE能够发现一些数据集中不存在、但在真实客观世界中存在的元关系三元组。

（b）JOIE对长尾实体分类具有更显著的效果提升

参考文献

[1] Antoine Bordes， Nicolas Usunier， Alberto Garcia-Duran， Jason Weston， and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In NIPS.

[2] Bishan Yang， Wen-tau Yih， Xiaodong He， Jianfeng Gao， and Li Deng. 2015. Embedding entities and relations for learning and inference in knowledge bases. In ICLR.

[3] Maximilian Nickel， Lorenzo Rosasco， Tomaso A Poggio， et al. 2016. Holographic Embeddings of Knowledge Graphs.. In AAAI.

[4] Sashank J Reddi， Satyen Kale， and Sanjiv Kumar. 2018. On the convergence of adam and beyond. In ICLR.

[5] Xin Lv， Lei Hou， Juanzi Li， and Zhiyuan Liu. 2018. Differentiating Concepts and Instances for Knowledge Graph Embedding. In EMNLP.

[6] Muhao Chen， Yingtao Tian， Mohan Yang， and Carlo Zaniolo. 2017. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment. In IJCAI.

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论知识图谱KDD 2019

相关数据

结构学习技术

结构化预测是监督学习，分类和回归的标准范式的一种推广。所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

来源：PyStruct Coursera

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

仿射变换技术

仿射变换，又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。一个对向量平移，与旋转放大缩小的仿射映射为上式在齐次坐标上，等价于下面的式子在分形的研究里，收缩平移仿射映射可以制造制具有自相似性的分形

来源：维基百科

本体技术

在计算机科学和信息科学中，本体包括表示、正式命名和定义概念，数据，实体之间的类别，属性和关系，并在一个，多个或所有域实例中。

来源：wiki

Jianfeng Gao人物

微软研究院人工智能深度学习组合作研究经理、IEEE Fellow，研究兴趣主要为自然语言处理、强化学习等。

来源：Jianfeng Gao

Xiaodong He人物

现任京东AI研究院常务副院长，深度学习和语音及语言实验室主任。何晓冬博士本科毕业于清华大学，并先后在中国科学院及美国密苏里大学-哥伦比亚分校获得硕士学位及博士学位。加入京东之前，何晓冬博士曾任职于美国微软雷德蒙德研究院，任主任研究员（PrincipalResearcher）及深度学习技术中心负责人(ResearchManager)，其工作包括深度结构化语义模型（DSSM），层次化注意力模型（HAN），看图说话机器人CaptionBot，智能绘画机器人DrawingBot等，研究成果对微软产品如Office、SeeingAI、搜索及广告、智能云服务、微软小冰等有着重要价值。同时，何博士还在华盛顿大学电子与计算机工程系兼任教授、博士生导师。

来源：Xiaodong He