2018/05/21 10:52

冯骁骋作者

IJCAI 2018 利用跨语言知识改进稀缺资源语言命名实体识别

在西班牙语、荷兰语和中文三种语言数据集上进行实验，结果显示，通过加入跨语言信息表示，实体识别性能平均提高大于3%。

本文介绍哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）录用于IJCAI 2018的论文《Improving Low Resource Named Entity Recognition using Cross-lingual Knowledge Transfer》，在稀缺资源语言实体识别任务中，我们在原有LSTM-CRF模型的基础上，利用双语词典作为跨语言信息传播桥梁，为每个稀缺资源语言词语学习英文语义空间下的语义表示，并映射到稀缺资源语言空间增强原有表示。在西班牙语、荷兰语和中文三种语言数据集上进行实验，结果显示，通过加入跨语言信息表示，实体识别性能平均提高大于3%。本论文的数据和代码；https://github.com/scir-code/lrner

论文作者：冯骁骋、冯夏冲、秦兵、刘挺

关键词：命名实体识别，稀缺资源语言，LSTM-CRF，知识表示

联系邮箱：xcfeng@ir.hit.edu.cn

个人主页：http://ir.hit.edu.cn/~xcfeng/

1. 引言

命名实体识别是信息抽取中一个最为重要的子任务，并且该任务可以为后续信息抽取任务 (关系抽取、事件抽取和实体消歧) 提供帮助。实体识别的目的是从文本中识别出事物的名称并进行分类，例如最常用的人名、地名和机构名。传统的命名实体识别方法大多采用有监督的机器学习模型，如支持向量机和条件随机场模型。尽管这些方法取得了相对较好的结果，但是这类方法严重依靠于训练数据的大小以及特征表示的好坏；此外还有一些基于神经网络的方法，该类方法可以从文本中自动选择特征，并且实验效果更优。

早期的研究人员指出，不同的语言间包含完整的实体语义线索。基于这一真实假设，本论文提出一种利用辅助语言的语义信息去提高目标语言实体识别结果的神经网络模型。特别地，本文通过利用不同语言间的翻译词典 (目标语言到辅助语言) 建立起了不同语言之间的桥梁，不仅可以进行语义层面的特征传递，还可以将实体类型分布特征进行有效的传输。例如，图1句子中的 “本” 字，虽然经常在中文中使用，但是很少作为名字姓氏出现,因此模型在判断的过程中很难对其进行正确分类。然而 “本” 的英文翻译 “Ben” 却经常在英文中当作姓名出现，因此，如果在考虑“本” 的时候能同时考虑其英文语义将有助于模型进行判断。

图1: Example of NER labels with bilingual lexicon.

2. 方法

基于之前利用跨语言（双语词典）知识帮助目标语言实体识别任务的动机，本节介绍一个通用的跨语言表示学习框架，去增强目标语言的语义表示。具体而言我们将首先介绍一下当前最好的实体识别模型LSTM-CRF模型，之后在此基础上学习当前语言的跨语言词典表示，然后考虑到词典覆盖率问题，去额外建模一个映射函数学习没有词典翻译的词语的跨语言表示，最后再学习在目标语言和辅助语言中各个词汇的的实体类型分布表示，将其作为额外特征加入到模型中。

2.1 LSTM-CRF

本节中，我们采用LSTM-CRF作为我们的基础模型，并在此基础上进行扩展。该网络由两个长短期记忆网络组成，一个前向记忆网络和一个后向记忆网络，前者用于学习前向的序列信息，后者用于学习后向的序列信息。的输入是正序的文本词向量，的输入是倒序的文本词向量，每个词的隐层表示等于之前词的表示和之后词的表示。最终通过串联得到每个词i的隐层表示，如图2所示，其中代表word embedding，代表当前单词的字符表示，可以通过RNN网络(如图3)或者CNN网络进行学习。

图 2: Main architecture of LSTM-CRF Model.

CRF

对于实体识别任务而言，一个简单且有效的方法就是将学到的每一个词的隐层表示作为特征输入到最终判别器中，之后对每一个词打出相应的标签。在神经网络模型中，最常用的方式就是将该隐层映射到所需分类的特征维度，之后选取概率最大的一维作为其实体类别，该方法也称之为softmax。尽管该模型在独立的序列标注任务中取得了成功，例如词性标注，但是该模型忽略了标签间的依赖关系，这一缺点导致了部分精度的损失。实体识别任务存在某些内在限制，例如I-PER 标签并不能接在B-LOC标签的后边。因此，有人提出用条件随机场模型(CRF)来学习标签之间的关系，而不是进行独立的标注。输入一句话X和对应的标签Y，

图 3: The character embeddings of the word “Ben” are given as input to a bidirectional LSTM.

根据CRF模型定义其打分函数为:

其中是一个转移矩阵，其中每一维代表从标签i到标签j的转移概率。P是神经网络输出的得分，代表第i个词被标记为第个标签的得分。

在测试阶段，我们根据其最大分类概率来确定其实体类别：

BIO标注体系

对于实体识别任务而言，其目的是给输入的文本中每一个词打一个对应的标签。一个实体可能由多个单词组成，因此有专家设计了BIO标注体系，其中B是beginning(开始)的缩写，I是inside(中间)的缩写，O是outside(非标签)的缩写，将每个单词标注为其中一种，例如图1所示，"美联储''只由一个词构成，并且为机构，因此标注为"B-Org''，而"本伯南克''由两个词构成，所以"本''标注为"B-Per''，"伯南克''为"I-Per''。其它词均为"O''。

2.2 双语词典语义表示

在本节中，我们将介绍两种方法去学习目标语言词语在辅助语言语义空间的表示，可以简化为学习中文词语在英文翻译词典上的语义表示，具体而言，分为基于LTSM表示和Attention表示。基于LTSM表示的学习方法是指将词典中某个中文词的不同翻译随机组成一个序列，之后用一个双向LSTM模型去建模，最终将两个隐层的表示串联作为跨语言知识表示，如图4右上所示。基于Attention表示就是指用当前中文词到对应的翻译词典释义中去寻找相关的词汇的权重分布，并进行加权求和得到对应的跨语言知识表示，如图4右下所示。其中代表中文词汇的某一翻译词条。

图 4: The character embeddings of the word “Ben” are given as input to a bidirectional LSTM.

2.3 基于映射的双语词典表示策略

在上一节中，我们介绍了如何利用双语词典去学习跨语言的词汇表示，但是通过统计我们发现，大部分现有的双语词典覆盖率相对较低，并不能够完全满足我们的需求，例如以conll 2002中的西班牙语和荷兰语为例，采用Facebook公开的双语词典其覆盖率均不足40%，如表1所示。

表 1: Bilingual Lexicons used in our experiments on Spanish and Dutch.

为了解决这一问题，我们提出了一种基于线性映射函数的解决策略，利用具有双语翻译的词汇去学习一个由目标语言表示到辅助语言空间的映射函数，之后将那些没有翻译的词汇利用这一映射学习其跨语言表示。具体公式如下：

其中M是映射矩阵，是有翻译的目标语言词汇。我们最小化如下损失函数去学习矩阵M，

在我们获得矩阵M之后，对于没有翻译的目标语言词汇, 可以通过映射学习其跨语言表示

2.4 实体类型分布特征表示学习

在本节中我们将介绍如何学习词汇的实体分布特征，该特征可以理解为某一词汇成为某一实体的可能性，该特征是一种语言无关的特征，因此我们可以从目标语言和辅助语言两个空间进行学习。并且该特征可以一定程度上帮助我们去进行实体识别，因为通过向量化的词汇表示其可以自然的去计算某一相似度，而且word embedding之间保持某些语义特性，例如我们对人名、地名和机构名各学习一个表示，则自然而然的知道 "Microsoft''距离机构的表示应该更近，而"Bill Gates''距离人的表示更近，我们希望学习词汇的实体分布特征并将其用于实体识别模型中。具体计算过程如图5所示，

图 5: The architecture of Entity Type Distribution.

其中代表任意语言中的某一词汇的word embedding，代表某一实体类型的表示，例如人的表示，我们将每个实体类型随机选取十个进行加和平均作为其初始值。之后计算与各个实体类型的cos相似度，作为一种新的特征加入到LSTM-CRF的模型输入中，如图6.

图 6: Main architecture of our model.

2.5 模型训练

在训练过程中，我们将实体识别的交叉熵损失函数和2.3节讲的映射函数损失函数一起进行学习，其表示为：

3. 实验

我们在西班牙语、荷兰语和中文上进行实验，其语料如下表2所示

表 2: # of sentences.

我们将自己所提的方法进行了不同的模型组合，其西班牙语和荷兰语结果如表3所示，中文结果如表4所示，均显示我们的方法获得了最好的效果。

表 3: Comparison of different methods on low resource NER.

表 4: Comparison of different methods on Chinese NER.

此外，我们为了验证所提模型对于未登录实体的有效性，进行了分组实验，其结果如下表5所示，其中A代表测试集中在训练集中出现过的实体，B代表测试集中的实体未在训练集里出现过，最终，我们可以看到我们的模型在B数据集获得了更多的提升，说明跨语言知识的引入对于未登录实体的识别有非常显著的作用。

表 5: Comparison of the results for LSTM-CRF, LM-LSTM-CRF and our LSTM-based networks. A denotes the entities appearing in both training and test datasets, and B indicates all other cases. Evaluation metric is F measure

4. 结论

在面向资源稀缺语言的实体识别任务中，我们提出了一个通用的跨语言语义表示框架，我们通过学习跨语言的知识来增强目标语言的语义表示，使得目标语言能够在实体识别任务上获得更好的结果，具体而言，我们学习了两种跨语言知识表示方法，以及一种基于映射的词典扩充表示方法和基于实体类型分布的表示特征。在三种语言（西班牙语、荷兰语和中文）上进行实体识别实验，与标准的LSTM-CRF模型对比，我们的方法能够平均获得超过3%的提升。在未来的工作中，我们计划将该框架用于其它序列标注和文本分类任务。

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门命名实体识别机器学习支持向量机神经网络

相关数据

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

支持向量机技术

在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

来源：Wikipedia

条件随机场技术

条件随机场（conditional random field，简称 CRF），是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。如同马尔可夫随机场，条件随机场为无向性之图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场当中，随机变量 Y 的分布为条件机率，给定的观察值则为随机变量 X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链接式的架构，链接式架构不论在训练（training）、推论（inference）、或是解码（decoding）上，都存在有效率的算法可供演算。条件随机场跟隐马尔可夫模型常被一起提及，条件随机场对于输入和输出的机率分布，没有如隐马尔可夫模型那般强烈的假设存在。线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

来源：维基百科

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心