关系提取(Relation Extraction, RE)是信息提取( Information Extraction, IE)中的一个重要子任务。
信息抽取(IE)是自然语言处理的一个任务,它涉及到信息结构化的提取,可以从简单的非结构化文本中轻松地被机器或程序所理解。由于因特网以文本的形式拥有大量的数据,所以IE系统非常重要。他们可以从本文中提取有意义的信息,然后可以用于搜索和QA等应用程序。举例,知识库Freebase等(Bollacker等,2008)和DBpedia(Auer et al.,2007)这是一个从不完整的信息中提取有用的信息的系统。信息提取本身就是一个巨大的任务包括几个子一样命名实体识别(named-entity-recognition), (relation extraction) 实体关系抽取, (event extraction)情景识别等。
IE可以在无监督和半监督领域中实现,以openIE形式。在那里我们没有任何预定义的本体和关系类,提取的事实跟数据关系的短语。在监督域中,关系抽取和分类任务具体指的是在已知关系集合的实体中对一个实体对进行分类,使用包含实体对的引用的文档。RE任务是指预测是在一个给定的文档中,是否包含一对关系,而不是二元分类。关系分类Relation classification指的是预测给定的本体所对应的关系类,因为它包含一个关系(建模为一个多类分类问题)。这两个任务可以通过一个额外的关系类制作一个多类分类问题相结合。
传统的非关系学习方法通常在监督范式下工作。它们可以分为两类:基于特征的方法和基于核的方法。在这两种方法中,所提取的特征和精心设计的内核都使用现有的NLP(natural language processing)系统,从而导致累积下游的各个模块的错误。而且,手工构建的特性可能无法捕获所需的所有相关信息。通过深入学习领域,去除了这种对手工提取的特性。
机器学习的监督式技术需要大量的训练学习数据。使用手动标注的数据集来进行关系提取需要大量的时间。Mintz et al. (2009)提出了一个distant supervision method来生成大量的训练数据,通过文本中的校正 KB facts .这样大的数据集允许学习像卷积神经网络这样的任务更复杂的模型。通过远程监督产生的数据集中存在的噪声也需要特殊处理。
【出处:论文 ,URL:A survey on relation extraction 】
关系抽取任务需要检测和分类,根据数据(如:文本或XML文档)中提到的语义关系。该任务与信息提取(IE)非常相似,但IE还需要删除重复关系(消除歧义),通常指提取许多不同的关系。
【出处:论文 ,URL:https://en.wikipedia.org/wiki/Relationship_extraction 】
主流的关系抽取技术
- 有监督的学习方法:将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。
- 半监督的学习方法:主要采用 BootStrapping 进行关系抽取,对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。
- 无监督的学习方法:假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。
基于有监督学习的关系抽取
有监督的关系抽取方法主要包括: 基于核函数的方法[Zhao and Grishamn 2005;Bunescu and Mooney 2006] ;基于逻辑回归的方法[Kambhatla 2004] ;基于句法解析增强的方法[Miller et al.2000] ;基于条件随机场的方法[Culotta et al. 2006];
但是阻碍这些系统效果继续提升的主要问题在于,人工标注训练数据需要花费大量的时间和精力。针对这个局限性,Mintz 等人[Mintz et al. 2009]提出了远程监督(Distant Supervision)的思想。 作者们将纽约时报新闻文本与大规模知识图谱FreeBase进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效的解决了关系抽取的标注数据规模问题。
之后又有人从各个角度对远程监督技术提出了改进方案。
基于深度学习的关系抽取
现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注,句法解析等自然语言处理标注提供分类特征,而自然语言处理标注工作往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。[Socher et al. 2012]提出使用递归神经网络来解决关系抽取问题。
- 该方法首先对句子进行句法解析;
- 然后为句法树上的每个节点学习向量表示;
- 通过递归神经网络,可以从句法树最顶端的词向量开始,按照句子的句法结构迭代合并,最终得到该句子的向量表示,并用于关系分类。
- 该方法能够有效地考虑句子的句法结构信息,但同时该方法无法很好的考虑两个实体在句子中的位置和句义信息。
举例:
下面是从一个公司的文本报告中提取关系,如IBM是一个公司,地点-纽约,日期为:1991,6,11.这样的relation就是从文本中的关系提取
【出处:paper ,URL:http://www.docin.com/p-1775027820.html 】
发展历史
最早的雏形在于Hearst(1992)的Automatic Acquisition of Hyponyms自然语言中提取is-a等关系,这是最早的关系提取模型。
之后出现的关系提取为监督式的方法。有监督的关系抽取方法主要包括: 基于核函数的方法[Zhao and Grishamn 2005;Bunescu and Mooney 2006] ;基于逻辑回归的方法[Kambhatla 2004] ;基于句法解析增强的方法[Miller et al.2000] ;基于条件随机场的方法[Culotta et al. 2006];
监督式的方法举例:Takamatsu 等人[Takamatsu et al. 2012]改进了实体对齐的技术,降低了数据噪音,提高了关系抽取的总体效果。Yao 等人[Yao et al. 2010]提出了基于无向图模型的关系抽取方法。 Riedel 等人[Riedel et al. 2010]则增强了远程监督的假设,与[Mintz et al. 2009]相比错误率减少了31%。以上远程监督技术都假设一个实体只对应一种关系。但是,很多实体之间具有多种关系。例如:“乔布斯创建了苹果公司”,“乔布斯是苹果公司的CEO”。因此,Hoffmann 等人[Hoffmann et al. 2011]提出采用多实例多标签(Multi-Instance Multi-lable)方法对关系抽取进行建模,刻画一个实体对可能存在多种关系的情况。类似地, Surdeanu 等人[Surdeanu et al. 2012]也提出利用多实例多标签和贝叶斯网络来进行抽取。
现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注,句法解析等自然语言处理标注提供分类特征,而自然语言处理标注工作往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。[Socher et al. 2012]提出使用递归神经网络来解决关系抽取问题。
[Zeng et al. 2014]提出采用卷积神经网络进行关系抽取。采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示。通过考虑实体的位置向量和其他相关的词汇特征,句子中的实体信息能够较好地考虑到关系抽取中。后来,[Santos et al. 2015]还提出了一种新的卷积神经网络进行关系抽取,其中采用了新的损失函数,能够有效地提高不同关系类别之间的区分性。[Miwa et al. 2016]提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。 目前基于卷积神经网络的方法在关系抽取的标准数据集SemEval-2010 Task 8 上取得了最好的效果。
上面介绍的神经网络模型在人工标注的数据集上取得了巨大成功。然而,与之前基于特征的关系抽取系统类似,神经网络关系抽取模型也面临着人工标注数据较少的问题。
[Zeng et al. 2015]尝试将基于卷积神经网络的关系抽取模型扩展到远程监督数据上。其中假设每个实体对的所有句子中至少存在一个句子反映该实体对的关系,提出了一种新的学习框架;以实体对为单位,对于每个实体对只考虑最能反映其关系的那个句子。该方法在一定程度上解决了神经网络关系抽取模型在远程监督数据上的应用,在 NYT10 数据集上取得了远远高于基于特征的关系抽取模型的预测效果。但是,该方法仍然存在一定的缺陷:该模型对于每个实体对只能选用一个句子进行学习和预测,损失了来自其他大量的有效句子的信息。
然而,有没有可能把实体对对应的有噪音的句子过滤掉,然后利用所有有效句子进行学习和预测呢? [Lin et al. 2016]提出了一种基于句子级别注意力机制的神经网络模型来解决这个问题,该方法能够根据特定关系为实体对的每个句子分配权重,通过不断学习能够使有效句子获得较高权重,而有噪音的句子获得较小的权重。与之间的模型相比,该方法取得较大提升。
主要事件
年份 | 事件 | 相关论文/Reference |
2003 | Zelenko, D., Aone, C., & Richardella, A.基于核分析法进行关系提取 | Zelenko, D., Aone, C., & Richardella, A. (2003). Kernel methods for relation extraction. Journal of machine learning research, 3(Feb), 1083-1106. |
2004 | Culotta, A., & Sorensen, J用依赖数进行关系提取 | Culotta, A., & Sorensen, J. (2004, July). Dependency tree kernels for relation extraction. In Proceedings of the 42nd annual meeting on association for computational linguistics (p. 423). Association for Computational Linguistics. |
2005 | Bunescu, R. C., & Mooney, R. J. 最短依赖路径的核分析法 | Bunescu, R. C., & Mooney, R. J. (2005, October). A shortest path dependency kernel for relation extraction. In Proceedings of the conference on human language technology and empirical methods in natural language processing (pp. 724-731). Association for Computational Linguistics. |
2009 | Mintz, M., Bills, S., Snow, R., & Jurafsky, D. 首次提出distant supervision | Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009, August). Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2 (pp. 1003-1011). Association for Computational Linguistics. |
2015 | Zeng, D., Liu, K., Chen, Y.使用CNN进行关系提取 | Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 1753-1762). |
2017 | Kumar, S.对深度学习中的关系提取进行回顾 | Kumar, S. (2017). A Survey of Deep Learning Methods for Relation Extraction. arXiv preprint arXiv:1705.03645. |
发展分析
瓶颈
关系抽取系统性能还有很大的提升空间,仍然有很多问题亟待解决
首先,基于句法树的树形LSTM神经网络模型在关系抽取上取得了不错的效果。这说明句法信息的引入对于关系抽取有一定帮助。然而,目前的句法分析仍然存在较多错误。在考虑句法信息的同时也引入了大量错误噪音。有研究表明,如果对于一个句子考虑其最可能的多个句法分析树,分析结果准确率可以得到较大提升.
目前的神经网络关系抽取主要用于预先设定好的关系集合。而面向开放领域的关系抽取,仍然是基于模板等比较传统的方法。因此,我们需要探索如何将神经网络引入开发领域的关系抽取,自动发现新的关系及其事实。此外,对现有神经网络模型如何对新增关系和样例进行快速学习也是值得探索的实用问题。
未来发展方向
一个重要的研究方向是,如何有效地将句子的多个可能句法树信息结合起来,用于关系抽取。
目前关系抽取主要基于单语言文本。事实上,人类知识蕴藏于不同动态和类型的信息源中。我们需要探索如何利用多语言文本、图形和音频信息进行关系抽取。
Contributor:Ruiying Cai