命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。
命名实体识别往往先将整句拆解为词语并对每个词语进行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一类实例的识别规则。有监督学习的缺点在于这些算法需要大量注释语料库的输入,而对语料进行注释耗时,有时甚至根本不现实。因此一些半监督的算法受到了青睐,因为它们只需要轻度监督。例如根据正则化表达式,将{Isaac Asimov, The Robots of Dawn} 改写为[A-Z][A-Za-z .,&][A-Za-z.],从而将一个例子扩展至所有书籍的作者和标题。随后新输入的实体就可以根据这个规则进行判别。另一类命名实体识别的方法是无监督的,主要使用了聚类算法。通过衡量实体之间的语境相似性并将实体划入与其相似度最高的一类,无监督方法不需要大量注释语料库的输入就可以进行命名实体识别。
[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Named_entity]
[描述来源:David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification. URL: http://nlp.cs.nyu.edu/sekine/papers/li07.pdf]
[描述来源:Sekine, Satoshi. (1998). Nyu: Description of the Japanese NE System Used For Met-2. Message Understanding Conference. URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.106.9393 ]
发展历史
命名实体识别的起源可以追溯至上世纪50年代,当时的应用范围主要为从论文和医疗记录中提取结构化实体,并于80年代将范围扩展至新闻报道。1991年起关于这项任务的研究论文开始陆续发表。随着研究的深入,识别一些信息单位,如名字、机构、地点,和数字表达式,如日期、百分比,对于定义识别任务变得至关重要,1996年R. Grishman和Sundheim于第六次信息理解大会(MUC-6)提出了命名实体(Named entity)的概念。
早期的命名实体识别主要集中在识别人名、地点和组织,有一部分原因是当时的模型主要依赖于人工制定的规则(Hand-made Rule-based ),即先由研究人员根据语法、句法等总结规则,并编制语料库,才能将模型进行实际应用。这些模型的训练不仅费时费力、成本高昂,而且对其应用范围有很大限制。一旦提供的文本和训练的文本所需要识别的命名实体类别完全不同,或者文本的语言不同,就可能对模型的表现造成很大影响。这种模型的好处在于它们在所训练的命名实体类别上表现非常好,并且能够提取复杂的实体。随后发展的基于机器学习的NER系统(Machine Learning-based NER system )不再将命名实体识别视为一个识别问题(identification problem),而是分类问题(classification problem)。 利用统计模型和机器学习算法,模型模拟文本内部可能存在的关系并据此对文本中的词汇进行分类,从而完成命名实体的识别。同时期还有一类模型结合基于规则的学习方法(rule-based)和基于机器学习的方法(machine learning-based)两种方法的优势来得到更好的结果,这种模型被称为混合模型(Hybrid NER system)。这类模型的表现的确很好,但由于模型引入了基于规则的学习方法,其缺点也被继承了下来。
近年来随着自然语言处理(NLP)的发展,命名实体识别作为自然语言处理的重要预处理步骤的重要性不断增加。对于命名实体识别方法的学习也是热点之一,但目前研究主要是对目前已有方法表现的测试、在新领域的应用,或对已有方法的结合。
主要事件
年份 | 事件 | 相关论文 |
1991 | Lisa F. Rau发表的论文描述了一种能“提取并识别公司名称”的系统 | Lisa F. R. (1991). Extracting Company Names from Text. IEEE Conference |
1996 | Grishman和Sundheim引入命名实体(Named entity)和模板元素(Template element)的概念 | Grishman, R.; Sundheim, B. (1996). Message Understanding Conference - 6: A Brief History. International Conference on Computational Linguistics |
2004 | 由于命名实体类别的增加,Sekine和Nobata定义了命名实体层次(named entity hierarchy) | Sekine, S.; Nobata, C. (2004). Definition, Dictionaries and Tagger for Extended Named Entity Hierarchy. *Conference on Language Resources and Evaluation |
2005 | TIMEX2社区提出了关于时间表达式的注释和规范化的阐述标准 | Ferro, Lisa; Gerber, L.; Mani, I.(2005). Sundheim, B.; Wilson G. TIDES 2005 Standard for theAnnotation of Temporal Expressions. The MITRE Corporation. |
发展分析
瓶颈
一方面,命名实体识别依赖于大量注释语料库的问题通过使用半监督、无监督学习得到了缓解,但这一问题仍未得到彻底解决。另一方面,当训练出的模型用于识别另一类实体时,模型的表现往往会下降。现有方法训练出的模型泛化能力需要提升。
另外一个难点是如何保证模型在语境复杂的情况下仍然能准确的进行命名实体识别。论文等需要规范化写作的文章往往较容易对其进行信息的剥离和理解,但另一些文字(如微博)是高度不规范的,并且会给命名实体识别造成困难。
未来发展方向
大数据时代造成了训练数据量大,但同时数据内容混杂的特点,因此命名实体识别必须能够在多语言、高语境的复杂情况下保持稳定的表现。无监督、半监督学习或者混合模型应当是一个发展方向。
Contributor: Yuanyuan Li