信息抽取(IE)过程是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程。在文本中进行信息提取与文本简化问题相关联,一般目的是创建对机器来说可读性更强的文本来处理句子。 IE一般包含以下子任务:
大多数IE任务的第一步是找到文本中提到的专有名称(proper names)或命名实体(named entities),命名实体识别(NER)的任务是在文本中查找每个提及的命名实体并标记其类型。什么构成命名实体的类型则是特定于应用程序的,这些通常包括人员,地点和组织,但也包括从基因和蛋白质名称到大学课程名称的一些更具体实体。
在文本中找到所有提及的命名实体后,我们需要将这些实体链接或聚类到各个集合中。
关系抽取(relation extraction)的任务是查找和分类文本实体之间的语义关系,通常是配偶,子女,就业,从属和地理空间上的位置关系等二元关系。关系抽取与填充关系数据库有着密切的联系。
事件提取(event extraction)的任务是查找这些实体参与的事件,例如,美国两家航空公司的票价增加以及报告事件所述和引用的事件。 我们还需要通过查找共同之处来确定文本中提到的许多事件中的哪些引用同一个事件。
为了弄清楚文本中事件的发生时间,我们必须确认一些时间表达式(temporal expression)—— 例如星期几(星期五和星期四)、月份、节假日等 —— 以及相对表达式如现在或明年的两天以及3:30 PM 或中午。 时间表达归一化(temporal expression normalization)的问题是将这些时间表达映射到特定的日历日期或一天中的时间来及时定位事件。
最后,许多文本描述了反复出现的刻板形式。 模板填充(template filling)的任务是在文档中找到这种情况,并用适当的材料填充模板。 这些插槽填充符可以由直接从文本中提取的文本段,或者通过附加处理从文本元素推断出的时间,金额或本体实体(ontology entities)等概念组成。
举例来说,由于航空公司经常提高票价,然后等待竞争对手的跟进。 在这种情况下,我们可以将美联航确定为最初提高票价的主要航空公司,
从他们发表的新闻中:
Citing high fuel prices, United Airlines said Friday it has increased fares by $6 per round trip on flights to some cities also served by lowercost carriers. American Airlines, a unit of AMR Corp., immediately matched the move, spokesman Tim Wagner said. United, a unit of UAL Corp., said the increase took effect Thursday and applies to most routes where it competes against discount carriers, such as Chicago to Dallas and Denver to San Francisco.
我们可以提取价格为6美元,星期四为提高价格的日期,美国航空是随后提价的航空公司,从而形成如下所示的实用模板。
[图片及描述来源:Jurafsky, D.; Martin, J. H. (2016). Speech and Language Processing. Prentice Hall]
发展历史
最早的信息提取工作涉及模板填充任务,并在Frump系统——这个信息抽取系统能从新闻报道中抽取信息,如地震、罢工等领域或场景——中进行。后来的工作受到美国政府赞助的MUC会议的启发, 像CIRCUS系统(这是一个语义分析器,其设计初衷主要是提高与面向语义的解析器相关的语法复杂度水平,和利用自然语言处理中的传统符号技术与连接技术这两种计算范式的互补优势)以及SCISOR。Lisa F. Rau和P. S. Jacobs提出SCISOR这个系统并将其应用于财经新闻,展示了自然语言分析在当时的一些优势。这些早期的MUC系统相当有影响力,并启发了后来的系统,如FASTUS。
由于重复使用系统或将系统从一个领域移植到另一个领域存在困难,随后研究方向转向自动获取知识。Ellen Riloff在他的论文中中描述了最早的监督学习IE的方法之一。
这些早期的学习侧重于有限状态规则系统的知识获取过程的自动化。他们的成功——以及基于HMM的自动语音识别方法的早期成功——促成了基于序列标记的统计系统的发展。如2000年Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models),John Lafferty等人提出了CRF(conditional random fields)来分割和标记序列数据。
Fei Wu和Daniel S. Weld于2007年选择维基百科作为初始数据源,提出了一种自我监督的机器学习系统的原型实现,他们的初步实验证明了系统提取数据的精度 在一种情况下与人类相当。这种方法随后被称为远程监督算法(distant supervision algorithm)。他们于2010年提出了WOE——一个开放的IE系统(Open IE)——可显著提高TextRunner的精确度和召回率。
2013年Sebastian Riedel等人提出了一种通用模式,结合了远程监督和Open IE的优势。
目前随着神经网络的发展,递归神经网络(RNN)和卷积神经网络(CNN)也被用于这个研究领域,RNN可以考虑到句子的句法结构,CNN则不需要复杂的NLP工具,更易实现。
主要事件
年份 | 事件 | 相关论文/Reference |
1990 | Lisa F. Rau和P. S. Jacobs提出了SCISOR | Jacobs, P. S. and Rau, L. F. (1990). SCISOR: A system for extracting information from on-line news. Communications of the ACM, 33(11), 88–97. |
1991 | Wendy Lehnert和Robert Williams等学者对CIRCUS进行了讨论 | Lehnert, W. G., Cardie, C., Fisher, D., Riloff, E., and Williams, R. (1991). Description of the CIRCUS system as used for MUC-3. In Sundheim, B. (Ed.), MUC-3, pp. 223–233. |
1993 | Ellen Riloff在他的论文中中描述了最早的监督学习IE的方法之一 | Riloff, E. (1993). Automatically constructing a dictionary for information extraction tasks. In AAAI-93, Washington, D.C., pp. 811–816. |
2000 | Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models) | McCallum, A., Freitag, D., and Pereira, F. C. N. (2000). Maximum entropy Markov models for information extraction and segmentation. In ICML 2000, pp. 591–598. |
2001 | John Lafferty等人提出了CRF(conditional random fields)来分割和标记序列数据 | Lafferty, J. D., McCallum, A., and Pereira, F. C. N. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML 2001, Stanford, CA. |
2007 | Fei Wu和Daniel S. Weld提出了一种自我监督的机器学习系统的原型实现 | Wu, F. and Weld, D. S. (2007). Autonomously semantifying Wikipedia. In CIKM-07, pp. 41–50. |
2010 | Fei Wu和Daniel S. Weld提出了WOE | Wu, F. and Weld, D. S. (2010). Open information extraction using Wikipedia. In ACL 2010, pp. 118–127. |
2013 | Sebastian Riedel等人提出了一种通用模式,结合了远程监督和Open IE的优势 | Riedel, S., Yao, L., McCallum, A., and Marlin, B. M. (2013). Relation extraction with matrix factorization and universal schemas. In NAACL HLT 2013. |
发展分析
瓶颈
传统的信息抽取系统在关系抽取、歧义消解、可移植性等方面能力十分有限,而随后出现的开放式文本信息抽取虽然有更好的表现,但其的主要问题是缺乏标注语料。
未来发展方向
目前开放式文本信息抽取仍然是主要研究方向;另外,由于神经网络的优越表现,如何将信息抽取包含的多个子任务的内在机理和特征进行融合加入到现有神经网络模型之中也是一个研究方向。
Contributor:Yuanyuan Li, Mos Zhang