论文名称:Multi-Input Multi-Output Sequence Labeling for Joint Extraction of Fact and Condition Tuples from Scientific Text
下载链接:https://www.aclweb.org/anthology/D19-1029/
项目网站:
https://twjiang.github.io/MIMO_CFE/
项目源码:
https://github.com/twjiang/MIMO_CFE
作者主页:
http://ir.hit.edu.cn/~twjiang/
条件在科学陈述中至关重要:如果没有精确指定的条件(例如,设备,环境),则科学陈述中的事实(例如,科学观察)的正确性可能无法被检验。现有的面向科学领域的信息抽取方法(Science IE)旨在从科学文本中提取事实元组,但却忽略考虑条件(元组)的抽取。在这项工作中,我们提出了一个新的序列标注框架以及一个新的标注模式,利用其从语句中同时提取事实和条件元组。如图1所示,该框架拥有两个核心模块:用于将多种类型的信号以序列形式输入到模型的多输入模块(Multi-Input);用于生成一个或多个元组的多输出模块(Multi-Output)。在数据集BioNLP2013上相对提高了4.2个百分点,在我们新构建的专门用于事实、条件元组提取的生物医药文本数据集(BioCFE)上提高了6.2个百分点。
环境和设备等条件为事实提供了验证依据,而事实则侧重于科学文献中的科学观察和假设[1]。现有的Science IE 方法从科学文本中提取(主语,关系短语,宾语)元组,但不能区分事实和条件的作用。简单地直接添加元组分类模块有两个缺点:(1)一个元组在不同的句子中可能具有不同的角色;(2)一句话中的元组彼此之间具有高度依赖性,例如,给定一句来自生物化学文献中的声明:
我们观察到 …… 碱性pH增加Jurkat T细胞中TRPV5/V6通道的活性。
现有开放关系抽取系统[3]将返回一个元组,如下所示:
(碱性 pH,增加,Jurkat T细胞中TRPV5/V6通道的活性)
其中(a)宾语应只是“TRPV5/V6通道的活性”,并且(b)没有找到条件元组(TRPV5/V6通道,在……中,Jurkat T细胞)。我们发现术语“TRPV5/V6通道的活性”不仅是事实元组的宾语概念,而且还是条件元组的主语概念。
在这项工作中,我们将联合元组提取任务定义为多输出(Multi-Output)序列标签问题。首先,我们创建一个新的标签架构:非“O”标签的格式为“B/I-XYZ”,其中
X属于集合{事实(fact),条件(condition)};
Y属于集合{1:主语,2:关系,3:宾语};
Z属于集合{概念(concept),属性(attribute),关系短语(relational phrase)}
请注意,如果Y=2,则Z=p。因此,非“O”标签的数量为20。现在,每个事实/条件元组都可以表示为标记序列。而且,本文是将概念和属性分开的第一个序列标签工作。该示例中的事实元组在理想情况下将是:(碱性pH,增加,{TRPV5/V6通道:活性}),理想的条件元组是:(TRPV5/V6通道,在……中,Jurkat T细胞)。
图1展示了我们的框架。在LSTMd解码器之后会生成多个标签序列,每个标签序列代表一个事实或条件元组。这个多输出模块有两层:第一层是关系名称标签层,用于预测关系短语的标签并确定输出序列的数量。另一个是元组完成标记层,该层生成用于完成事实和条件元组的标记序列。
为了解决建模复杂标签架构的挑战,除了语言模型外,我们还从上游工具中引入尽可能多的信息,例如词性标签(POS),概念检测、属性名称提取和词组挖掘(CAP)。然后将它们转换为标签序列作为模型输入。我们观察到词语的POS/CAP标签和目标标签之间有很强的依赖性。得益于现有技术的高精度,使新数据集中多输入序列的充分训练成为可能。
3.数据集构建
图 2 通过四个步骤进行注释:(1)将零散连续的词语合并为一个整体的区块;(2)为新的元组生成插槽;(3)将合并好的区块拖入插槽;(4)保存标注。
我们构建了一个具有GUI的系统(图2),以收集用于联合元组提取目的的新数据集,称为生物医学条件事实提取(BioCFE)。三名参与者(生物医学领域的专家)从MEDLINE数据库的31个论文摘要中的语句中手动注释了事实和条件元组。每篇论文的注释过程平均花费30分钟以上。这是该系统的简要指南:首先,用户将零散连续的词语合并为一个整体的区块。其次,他们给出了适当数目的事实和/或条件元组,其中适当数目不是固定的,而是取决于具体句子。每个元组都有五个插槽(概念主语,属性主语,关系短语,概念宾语,属性宾语)。第三,他们将合并好的区块拖动到插槽中。如果这三个标注结果不一致,则我们将其过滤掉。最终,从336个带标注的句子中我们得到756个事实元组和654个条件元组。我们发现一个句子通常具有多个事实和/或条件,实际上,61%/ 52%陈述语句具有多个事实/条件元组,这也是我们设置多输出模块的初衷之一。
4.方法
我们的方法(MIMO)有两个模块:(1)一个多输入模块(Multi-Input),利用NLP技术来处理来自多个任务的输入序列的文本,并将其输入到具有多输入门的多头编码器/解码器模型中;(2)一个多输出模块(Multi-Output),它为事实和条件元组生成多个元组标签序列,由关系名识别层和元组补全识别层组成,如图1所示。
4.1 多输入模块
对输入序列的预处理:基本的NLP技术已经实现了高精度,不需要对带标签的数据进行额外的训练:语言模型(LM),POS,CAP[4-7]。对于任何给定的输入句子,首先进行分词并通过其词嵌入表示每个标记(本文中的预训练GloVe向量)。然后通过输入语句和以上三种基本的NLP技术获得另外三个输入序列。(1)一种基于LSTM的经过预先训练的语言模型,以句子为输入,并返回语义嵌入序列,其中保留了当前词语和其长距离上下文中的依赖性。(2)我们使用NLTK工具为给定的句子生成POS标签序列。POS标签序列指示句子中单词的句法模式,即POS标签和输出标签(例如动词(例如“VBD”)和谓词(例如“ B-f2p”))之间的依存关系。(3)多种互补的IE技术用于从给定的句子中检测概念,属性和短语,进行合并并生成CAP序列。我们以“B/I-c/a/p”格式制作标签,用于概念,属性和短语的标记。
每个序列编码一种特定类型的依赖性。多类型依赖项的组合比任何单一类型都更好地学习了21个元组标记上的复杂依赖项。LM在长距离上下文中学习当前词语与其历史词语之间的依赖关系,这有助于预测主语,关系和宾语的位置。POS编码单词的句法特征。可以对POS标签和元组标签之间的依赖关系(例如“VBD”和“B-f2p”)进行建模。我们还发现了CAP标签和元组标签之间的高度依赖性。例如,“B/I-c”(概念)和“B/I-a”(属性)标记的词语很可能被标记为“B/I-XYc”和“B/I-XYa”。
多头编码器-解码器:我们研究了两种神经网络模型作为编码器:一种是双向LSTM(BiLSTM),另一种是来自Transformers(BERT)的著名双向编码器表示形式。我们采用LSTM结构作为解码层(LSTMd)[8]。我们观察到输入序列在不同句子上可能具有不同的标签可预测性。对于短句子,POS和CAP更有用(对本地依存关系建模);对于长句子,LM更有效(建模远距离依存关系)。为了确保模型在海量数据上的鲁棒性,我们将多头机制应用于编码器-解码器模型。编码器-解码器的每个头都被提供一种类型的输入序列,并且它们在解码器层的末尾进行组合。因此,与没有使用多头的简单编码器-解码器相比,标签预测变得更加稳定。
多输入门:我们在ResNet[9]中采用了多输入门,以充分利用多输入序列。我们将门添加到BiLSTM或BERT编码器的输入,LSTMd解码器的输入以及多输出模块。
4.2 多输出模块
我们认为模型应当生成多个输出序列。由于标注多个元组的句子十分常见,因此词语在元组中可能具有不同的预期标签。在BioCFE上,我们观察到93.8%的语句构成多个元组:21.7%的语句具有至少一个在至少一个事实元组和至少一个条件元组中出现的标记,期望标记为“B/I-fYZ”和“B/I-cYZ”;18.1%的句子中至少有一个标记出现在一个条件元组中,作为主语的一部分,而在另一个条件元组中,则作为宾语的一部分,期望标记为“B/I-c1Z”和“B/I-c3Z”。因此,我们将典型的单输出序列标签扩展到多输出设计。
那么输出序列的数量是多少?模型如何动态输出不同数量的标签序列?我们揭示了关系名称在创建元组中的重要作用。如果我们首先为每个关系名称标记以“B-f2p”(事实关系)或“B-c2p”(条件关系)作为关系开始标签,模块分别为每个识别出来的关系生成对应的输出标签序列。然后,我们从每个输出序列中提取所有可能的元组(已指定其关系)。关于标注数据的两个观察结果支持此思想:我们分别为1,410个元组中每个元组转换为一个标签序列。对于同一句子,如果元组的关系名称相同,我们将其标记序列合并,最终得到240个标签序列,然后使用[3]中的匹配函数来恢复元组。首先,没有任何词语在240个合并序列中具有冲突标签。其次,恢复中有无元组丢失或错误。因此,为每个识别到的关系生成一个输出序列并进一步完成元组各个元素(主语和宾语)的识别是切实可行的。
多输出模块具有两层:关系识别层(RNT),它由前馈神经网络(FFN)和SoftMax层组成。解码后的向量被馈送到FFN中,并且SoftMax预测事实或条件下标签的概率分布,我们将识别到的关系标签作为重要信息输入到下一层;元组补全识别层(TCT),该层预测n个事实标签序列和m个条件标签序列。每个序列由FFN和SoftMax层生成。FFN从RNT层获取关系名称,其输入还包括来自多输入模块的编码器-解码器模型的词语向量。每层的具体操作以及公示详见论文原文。
5.实验结果
我们评估MIMO模型、其变体和基线模型在条件/事实标签预测和元组提取任务上的性能,实验使用新标注的BioCFE数据集上并将其转移到BioNLP2013数据集。
5.1 整体实验评估结果
表1显示,所提出的带有BERT编码器的多输入多输出序列标记模型在标签预测和元组提取的所有基线上始终表现最佳。与BiLSTM-LSTMd相比,基于BiLSTM的MIMO在标签预测方面的F1评分相对提高了7.1%,在元组提取方面的评分则提高了8.8%。与BERT-LSTMd相比,基于BERT的MIMO在两个任务上分别提高了4.7%和6.2%的F1。显然,BERT编码器显着提高了性能(在标签预测上提高了16.9--17.2%,在元组提取上提高了7.7--10.3%)。MIMO设计可以进一步改善它。神经序列标记模型的性能优于OpenIE系统和统计方法。神经序列标签模型更适应于具有新标签架构的学习结构。开放式IE方法加上条件/事实分类无效。
与BERT-LSTMd相比,基于BERT的MIMO在标签预测方面的精度和召回率分别提高了8.3%和1.3%。在元组提取上分别提高了3.1%和9.3%。当标签被更精确地预测时,元组的五个插槽将被更准确地填充,并且我们将拥有更完整的元组。我们还观察到,条件标签预测和元组抽取的提升始终大于事实标签预测和元组抽取。它表明MIMO设计可以更好地识别条件在语句中的作用。
表 1 所提出的MIMO在BioCFE数据集中优于标签预测和元组提取的现有方法。带有基于BERT的编码器的MIMO表现最佳。分数越高表现越好。
5.2 消融实验
表 2 提出的采用(a)多输入语言模型,POS标签和概念属性短语序列,(b)多输出标签序列,(c)基于BERT的编码器的MIMO在元组提取方面表现最佳。
表2比较了所提出模型的变体,以评估以下组件的有效性:(1)多输入序列,例如不采用或采用任一个(在LM,POS和CAP中选择)、双组合或三组合;(2)多输入编码器模型,BiLSTM或BERT;(3)多输出模块:仅具有RNT层(生成一个事实标签序列和一个条件标签序列),或具有RNT和TCT层的组合(针对每种元组类型生成多个序列)。
多输入序列:当指定了编码器模型和多输出层的选择时,我们观察到输入序列的三重组合比双组合要好,并且双组合胜过单输入。附加序列使F1相对提高1.0--2.4%。三重组合可将F1相对提高3.2--4.1%。这证明了三种类型的输入序列对互补信息进行编码,以学习所提出的标签架构中的依存关系。
首先,语言模型在长距离上下文中学习当前词语与其历史词语之间的依赖关系。利用LM序列识别关系名称的主语和宾语可以减少“B/I-X1Z”和“B/I-X3Z”的误报。其次,POS标签对词语的句法特征进行编码。具有POS序列可提高标签预测的准确性。例如,动词和介词(例如,“在...中”,“在...期间”)通常分别充当事实和条件的关系名称;连词(例如“that”,“which”)表示从句,因此连词之前的名词短语很可能是该从句给定的元组的主语。最后,检测到的概念、属性名称和短语,对于标记主语和宾语的位置十分有用:CAP序列中的标记“B/I-c”和“B/I-a”往往就是目标标签“B / I-XYc”和“B / I-XYa”。
多输入模块中的编码器:比较中间三列(基于BiLSTM的编码器)和右边三列(基于BERT的编码器),可以很容易地看出BERT模型带来的重大改进。
多输出模块中的层:如果多输出模型同时具有RNT和TCT层,则F1得分比仅具有RNT层的模型相对高1.4--5.0 \%。此外,召回率相对提高了1.5--9.0%。因此,为每种元组类型(即事实和条件)生成多个标签序列的TCT层在从一个语句识别多个元组中起着非常重要的作用。
5.3 错误分析
图3展示了基于BERT的MIMO分别针对事实和条件预测非“O”标签所产生的混淆矩阵。列是预测的标签,行是实际的标签。完美的结果将是对角矩阵。
图 3 BioCFE数据中的预测事实标签(顶部)和条件标签(底部)的混淆矩阵。
我们观察到对角线上的数字始终大于相应行和列上的数字。预测事实标签的准确性得分为0.905,而预测条件标签的准确性得分为0.908。在182个实际的“B-f2p”中,模型预测175个是“B-f2p”;在186个实际的“B-c2p”中,它预测一个是“I-c1c”,另一个是“I-c3c“。这也说明用于多输出生成的关系抽取的高精度(0.961和0.989)。
每个混淆矩阵中的椭圆形代表最重要的错误类型。尽管事实/条件角色和概念角色得到了正确的预测,但在少数实际主语中,模型将其预测为宾语,反之亦然。虚线圆圈显示第二种常见错误类型。在实际的“I-f2p”词语中,模型预测有7个是“B-f2p”;对于实际的“I-c2p”,它预测有6个是“B-c2p”。基本上,这是因为缺少关系短语的开头词。在实际的“B-f3a”词语中,模型预测的6个是“I-f2p”。未来的工作将旨在改善对长关系短语边界的预测。
5.4 BioNLP2013数据集实验结果
表 3 在BioNLP2013中,BERT-LSTMd MIMO模型在元组提取方面表现最佳。
如表3所示,从BioNLP2013提取元组时,BERT-LSTMd MIMO模型的F1得分达到0.790。请注意,该模型是在BioCFE上训练的,该BioCFE与BioNLP2013没有重叠的句子。该分数与BioCFE的测试F1分数(0.808)相当,这证明了所提出模型的有效性和可靠性。
与最佳基准BERT-LSTMd相比,我们的模型将F1分数相对提高了4.2%。召回率的改善更为可观:将召回率提高了5.8%。这是由于多输出模块的设计所致:TCT层基于RNT层预测的关系名称生成多个标签序列。语句中的标记在相同类型(事实或条件)的不同元组中可能具有不同的角色。例如,给定以下语句(查看论文中英文版本的样例更有助于理解):
肿瘤的免疫组织化学染色显示与对照组相比,治疗组的血管数目减少。
所提出的模型能够精确地找到一个事实元组和两个条件元组:
事实1:({肿瘤:免疫组化学染色},显示,{血管:数目减少})
条件1:(血管,在……中,治疗组)
条件2:(治疗组,相比,对照组)
其中,“治疗组”概念充当条件元组1的宾语角色,但同时也是条件元组2的主语角色。相比于其他单输出模型,多输出模型可以更好的解决该问题。
与BioCFE相比:在BioCFE上,条件元组提取的F1分数高于事实元组提取的F1分数(81.64 vs 79.94)。在BioNLP2013上,我们有相反的观察(78.58 vs 79.42)。它们仍然具有可比性,但是如果我们查看错误情况,我们会发现大多数条件元组的错误预测都来自长句子(具有30个以上的单词)。而BioNLP中35%的句子是长句子,而Bio CFE中只有5%的句子很长。对于IE来说,长依赖性建模始终是一个挑战,特别是条件提取。我们将在以后的工作中对其进行研究。
5.5 可视化案例研究
科学知识图可实现有效的搜索和探索,同时在图中表示相应事实有效的条件十分重要。当我们将模型应用于大型MEDLINE数据集时,图4将四个关于“细胞增殖”的陈述句中提取的事实和条件元组并进行可视化。在左侧,我们发现(1)``VPA处理''和``HDLs的''孵育''增加了细胞增殖,而(2)“Chlorin e6-PDT”和“MiR-199a-5p”的抑制表达降低了细胞增殖。在右侧,我们可以同时获取事实要求的条件,他们描述了观察的方法(例如,“使用”,“与...结合”)或上下文(例如,“在某种特定疾病中”或“来自”某种动物)。在其他情况下,我们发现检测到的温度和pH值是观察的条件。
图 4 将四个提到“cell proliferation(细胞增殖)”的语句中检测到的元组构造成科学知识图谱的快照,其中事实元组在左侧,条件元组在右侧。
参考文献
[1] David L Miller. 1947. The nature of scientific statements. Philosophy of Science, 14(3):219–223.
[2] Victor N Tomilin, Alena L Cherezova, Yuri A Negulyaev, and Svetlana B Semenova. 2016. Trpv5/v6 channels mediate ca2+ influx in jurkat t cells under the control of extracellular ph. Journal of cellular biochemistry, 117(1):197–206.
[3] Gabriel Stanovsky, Julian Michael, Luke Zettlemoyer, and Ido Dagan. 2018. Supervised open information extraction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume1 (Long Papers), volume 1, pages 885–895.
[4] Yi Luan, Luheng He, Mari Ostendorf, and Hannaneh Hajishirzi. 2018. Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction. In Proc. Conf. Empirical Methods Natural Language Process. (EMNLP).
[5] Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance M Kaplan, Timothy P Hanratty, and Jiawei Han. 2017. Metapad: Meta pattern discovery from massive text corpora. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 877–886. ACM.
[6] Jingbo Shang, Jialu Liu, Meng Jiang, Xiang Ren, Clare R Voss, and Jiawei Han. 2018. Automated phrase mining from massive text corpora. IEEE Transactions on Knowledge and Data Engineering,30(10):1825–1837.
[7] Xuan Wang, Yu Zhang, Qi Li, Yinyin Chen, and Jiawei Han. 2018a. Open information extraction with meta-pattern discovery in biomedical literature. In Proceedings of the 2018 ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics, pages 291–300. ACM.
[8] Suncong Zheng, Feng Wang, Hongyun Bao,Yuexing Hao, Peng Zhou, and Bo Xu. 2017. Joint extraction of entities and relations based on a novel tagging scheme. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers), volume 1, pages 1227–1236.
[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR, pages 770–778.
后记1:模型使用
模型使用
(1).克隆仓库
git clone https://github.com/twjiang/MIMO_CFE.git
(2).下载资源
dumped MIMO
的 地址.https://www.dropbox.com/s/lc1bvoxc2wbut9t/dumped_models.pt?dl=0
word embedding
的 地址.https://www.dropbox.com/sh/6yx1l8euehgw12k/AAB9mWc3m8H7niuEF7NBYUdRa?dl=0
pre-trained language model
的地址.https://www.dropbox.com/sh/q1kehix8q58sxmh/AADU35QFu1ZMuNQFTiEYWSxUa?dl=0
将这些文件放入./resources
文件夹之下
(3).安装依赖
conda create -n mimo python=3.6
conda activate mimo
pip install -r requirments.txt
4.运行demo程序
cd MIMO_service
python mimo_server.py #Start a MIMO service
python client.py
模型的输出如下:
{
'statements':{
'stmt 1':{
'text':'Histone deacetylase inhibitor valproic acid ( VPA ) has been used to increase the reprogramming efficiency of induced pluripotent stem cell ( iPSC ) from somatic cells , yet the specific molecular mechanisms underlying this effect is unknown .',
'fact tuples':[
['Histone deacetylase inhibitor valproic acid','NIL','has been used to increase','induced pluripotent stem cell','reprogramming efficiency'],
['VPA','NIL','has been used to increase','induced pluripotent stem cell','reprogramming efficiency'],
['Histone deacetylase inhibitor valproic acid','NIL','has been used to increase','induced pluripotent stem cell','reprogramming'],
['specific molecular mechanisms','NIL','is unknown','NIL','NIL']
],
'condition tuples':[
['iPSC','reprogramming efficiency','from','somatic cells','NIL'],
['induced pluripotent stem cell','reprogramming efficiency','from','somatic cells','NIL'],
['specific molecular mechanisms','NIL','underlying','NIL','effect']
],
'concept_indx':[0,1,2,3,4,6,17,18,19,20,22,25,26,30,31,32],
'attr_indx':[14,15,35],
'predicate_indx':[8,9,10,11,12,24,33,36,37]
}
}
}
后记2:意义和价值
不同于以往的信息抽取工具,专注于某类信息(如关系)的抽取,MIMO则对给定任意科学文献内容进行信息结构化处理,即最大可能地保留原文信息(同时包括事实与条件)并将其结构化,实现真正意义上的开放式信息抽取。将科学文献的文本信息结构化,可以推动很多下游任务的发展,实现在知识语义层面上的探索:科研领域知识图谱自动构建、知识问答任务、文献信息检索任务等。我们期待与不同领域和研究方向的研究人员共同探索开放式事实/条件元组抽取任务的重要应用。