汉语 NLP 任务与英语不同,由于词语缺乏明显边界,汉语需要先依次分词、词性标注,再进行依存句法分析。但这种模式的分析容易造成误差传播,而且这三个小任务之间的共享知识无法充分利用。
对此,传统的解决方案是采用基于转换的联合模型。但这些模型仍然具有不可避免的缺陷:特征工程和巨大的搜索空间。因此,本文提出一种基于图的统一模型来解决这些问题。
这种模型将汉语分词和依存句法分析集成在一个分析模型中。它比以前的联合模型性能更好,并在汉语分词和依存句法分析中实现了当前最佳的结果。
与英语不同,汉语句子由连续的字符组成,词语之间缺乏明显的界限。由于词语常被认为是最小语义单位,因此汉语分词(CWS)成为下游汉语自然语言处理的预处理步骤。
例如,基本的 NLP 任务——依存句法分析通常在词级上定义。要分析一个中文句子,基本过程过程大致是:分词、词性标注和依存句法分析。
但是,这种 pipeline 方式总是存在以下局限:
误差传播。在这种方式中,一旦某些词语被错误地分割,随后的词性标注和分析也会出错。因此,pipeline 模型只能达到约 75%~80%的 dependency 分数 [1]。
知识共享。这三个任务(分词,词性标注和依存句法分析)是密切相关的。汉语分词的标准也取决于词语在句子中的语法作用。因此,从这三个任务中学到的知识是可以共享的。
一项任务的知识可以帮助其它任务。然而,pipeline 方式分别单独训练三个模型,每个模型针对一个任务,不能充分利用三个任务之间的共享知识。
这种误差传播问题的传统解决方案是使用联合模型 [2,3,1]。这些联合模型主要采用基于转换的分析框架来集成分词、词性标注和依存句法分析。它们基于标准的顺序 shift-reduce 转换,为分词和词性标注设计了一些额外的动作。
虽然这些联合模型比 pipeline 模型的性能更好,但它们仍具有两个局限性:第一,巨大的搜索空间;第二,特征工程(feature engineering)。
最近,基于图的模型在依存语句法分析方面取得了很大进展 [4,5],它充分利用了双向长短期记忆网络(BiLSTM)[6] 和注意力机制 [7] 来捕捉句子中单词之间的交互。
与基于转换的模型不同,基于图的模型为每个可能的弧分配一个分数或概率,然后根据这些加权弧来构建最大生成树(MST)。
本文提出了一个统一的汉语分词和依存语句分析模型,它将这两个任务集成在一个基于图的分析模型中。由于分割是字符级任务,而依存分析是词级任务,因此研究人员首先将这两个任务公式化为基于图形的字符级分析框架。
详细地说,本文模型包含(1)深度 BiLSTM 编码器,它能够捕获每个字符的长期上下文特征,(2)biaffine 注意力计分器(attentional scorer)[5],它统一预测字符级别的分割和依存分析关系。此外,与以前的联合模型不同,该统一模型不依赖于词性标注任务。
本文三项贡献如下:
据研究人员所知,这是第一个将汉语分词和依存句法分析集成在统一模型中的基于图的方法。且提出的统一模型非常简洁,易于实现。
与之前基于转换的联合模型相比,本文提出的模型是基于图的,这使得特征工程的工作量减少。此外,此模型可以处理标记的依存句法分析任务,而这对于基于转换的联合模型来说并不容易。
在数据集 CTB-5 和 CTB-7 上进行的实验中,即使没有 POS 信息,本文模型在联合汉语分词和依存句法分析中也达到了当前最先进的性能。
论文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing
论文地址:https://arxiv.org/abs/1904.04697
汉语分词和依存句法分析是汉语自然语言处理的两个基本任务。依存句法分析是在词级定义的,因此分词是依存句法分析的前提条件,这使得依存句法分析受到误差传播的影响。
在本文中,我们提出了一个统一的模型来集成汉语分词和依存句法分析。与以前的联合模型不同,我们提出的模型是基于图形的模型,它更加简洁,从而减少了特征工程的工作量。
我们的联合模型比以前的联合模型性能都更优,并在汉语分词和依存句法分析中实现了当前最优的结果。
本文提出的模型
以前的联合方法主要基于转换的模型,它通过添加一些额外的操作(如「app」和「tag」)来修改标准的「shift-reduce」操作。与以前的方法不同,我们将分词和依存句法分析集成到一个基于图的统一分析框架中,这样更简单且更易于实现。
图 1:联合汉语分词和依存分析的统一框架。绿色弧线表示词级依赖关系。带有「app」的蓝色虚弧线表示连接的字符属于同一个词。
首先,我们将分词转换为特殊的弧预测问题。例如,中文单词「金融业(financial sector)」有两个词内依存弧:「金←融」和「融←业」。这两个词内依存弧都有标签「app」。
在本文中,我们只是将词语中的最后一个字符定义为首字符,所有其它字符都依赖于它。
其次,我们将词级依存弧转换为字符级依存弧。假设在词语 w1 = xi:j 和 w2 = xu:v 之间存在依存弧,其中 xi:j 表示句子中从 i 到 j 的连续字符,我们用此弧连接每个词的最后字符 xj 和 xv。
例如,弧「发展 (develop)→金融业 (financial sector)」被转换为「展→业」。图 1 说明了联合汉语分词和依存句法分析的统一框架。
因此,我们可以使用基于图的统一分析模型来执行这两个任务。我们的模型包含两个主要组成部分:(1) 深度 BiLSTM 编码器,用于提取上下文特征,它将给定句子的每个字符嵌入作为输入并生成密集向量,(2)biaffine 注意力计分器 [5],将给定字符对的隐藏向量作为输入并预测标签得分向量。
图 2 说明了联合汉语分词和依存句法分析的统一模型。具体说明如下。
图 2:本文提出的联合模型。为了简单起见,我们省略了弧标签的预测,它使用不同的 biaffine 分类器。
实验
我们使用 Penn Chinese Treebank 5.0(CTB-5)和 7 个(CTB-7)数据集来评估我们的模型。
表 1:CTB-5 和 CTB-7 的数据统计
如表 3 所示,我们的联合模型(倒数第二行)在汉语分词和依存句法分析方面都大大超过了以前的方法,即使没有(基于转换的联合模型中广泛使用的)局部句法分析特征。
表 3:主要结果
所有模型在汉语分词中的性能如表 4 所示。前两行显示了是否在 MLP 顶部使用 CRF 的区别。表 4 的下半部分给出了对本文所提所有联合模型的分段评估。联合训练汉语分词和依存句法分析比单独训练汉语分词效果更好。
表 4:汉语分词结果