句法结构的无监督学习通常是使用带有离散潜在变量和多项式参数的生成模型进行的。在大多数情况下,这些模型都没有利用连续的词表征。本文提出了一种新的生成模型,通过级联带有结构化生成先验的可逆神经网络,用无监督的方式一同学习离散句法结构和连续词表征。在 Penn Treebank 数据集上,本文提出的的马尔可夫结构模型在词性标注归纳任务上的性能超过了目前最先进的模型。此外,该研究中的树结构模型在既没有黄金词性标注标签也没有基于标点的约束条件的困难训练条件下,在无监督依存分析任务中达到了当前最优性能。
数据标注是监督学习方法应用于许多问题的主要瓶颈。因此,直接从无标签数据中学习的无监督方法显得越来越重要。对于与无监督句法分析相关的任务来说,离散生成模型近年来占据着主导地位,如词性标注(POS)归纳(Blunsom and Cohn, 2011; Stratos et al., 2016)和无监督依存分析(Klein and Manning, 2004; Cohen and Smith, 2009; Pate and Johnson, 2016)。尽管类似的模型在一系列无监督任务中取得了成功,但它们大多忽略了有监督自然语言处理应用中显而易见的连续词表示的作用(He et al., 2017; Peters et al., 2018)。本文着眼于利用并显式地表征句法结构的无监督模型中的连续词嵌入。
利用大量无标签语料库预训练得到的词嵌入提供了一种紧凑的方式,将词相似性的先验概念注入到模型中。如果不使用这种技术,这些模型就会将词视为离散的、孤立的类别。然而,由任何特定的嵌入方案捕获到的语言的特定属性可能难以控制,因此可能无法理想地适用于我们面对的任务。例如,用小型上下文窗口预训练得到的 skip-gram 嵌入(Mikolov et al., 2013)可以很好地捕获到语言的句法特性(Bansal et al., 2014; Lin et al., 2015)。然而,如果我们的目标是分离句法类别,这样的嵌入空间就不是理想的——词性标注类别对应于嵌入空间中重叠的散布区域,如图 1(a)所示。
图 1:skip-gram 嵌入(在上下文窗口大小为 1 的 10 亿个单词上训练得到)以及通过我们使用马尔可夫结构先验的方法学到的潜在嵌入的可视化结果(t-SNE)。每个节点代表一个单词,并且根据 Penn Treebank 中最可能的黄金词性标注标签着色。
在我们提出的方法中,我们建议学习一个新的潜在嵌入空间作为预训练的嵌入的投影(如图 1(b)所示),同时一起学习词性标注类别或句法依存关系等潜在的句法结构。为此,我们引入了一个新的生成模型(如图 2 所示)。该模型首先利用离散结构先验(我们也称之为「句法模型」)生成一个潜在的句法表征(如依存分析)。接着,我们以此表征为条件,生成一个对应于每个单词的潜在的嵌入随机变量序列。最终通过将这些潜在向量用一个参数化的非线性函数进行投影得到我们看到的(预训练的)词嵌入。潜在的嵌入可以以完全不受监督的方式与结构化的句法模型一同学习。
图 2:本文使用的生成模型示意图。本文提出的句法模型由离散随机变量 z_i 组成。每个 e_i 都是一个在 z_i 情况下从高斯分布中抽样到的潜在的连续嵌入,而 x_i 是我们看到的由 e_i 确切求导得来的嵌入结果。左边的部分描述了神经投影如何将简单的高斯分布映射到输出空间中更加复杂的分布上。右边的部分描述了我们的方法中句法模型的两个实例:一个使用了马尔可夫结构的先验,另一个使用了 DMV 结构的先验。对于 DMV 来说,z_tree 是潜在的依存树结构。
通过选择一个可逆神经网络作为我们的非线性投影器,然后根据投影的倒置对我们的模型进行参数化处理,我们就可以推导出易于处理的准确推理,而且只要推理在底层的句法模型中是易于处理的,我们就可以推导出边缘似然的计算过程。§3.1 阐明了该推导对应于我们的方法的另一种视角,由此我们可以一同学习观察到的词嵌入结果到一个新的嵌入空间的映射。新的嵌入空间更适合句法模型,包含了一个额外的 Jacobian 正则项以防止信息丢失。
最近的研究已经试着去利用通过其它方法构建的无监督生成模型中的词嵌入(Lin et al., 2015; Tran et al., 2016; Jiang et al., 2016; Han et al., 2017)。Lin 等人于 2015 年在观察到的词嵌入上使用高斯分布构建了一个隐马尔可夫模型(HMM),但他们没有尝试学习新的嵌入。Tran 等人、Jiang 等人于 2016 年,Han 等人于 2017 年拓展了 HMM 模型或通过在参数化过程中使用单词(或标签)嵌入的多项式拓展了 DMV 模型。然而,它们并不以潜在变量表征嵌入。
在实验中,我们使用了马尔科夫结构的句法模型和树结构句法模型(具体指 DMV 模型)来实例化我们的方法。我们对两个任务进行了评价:词性标注(POS)归纳和不带黄金 POS 标签的无监督依存分析。在 Penn Treebank 数据集(Marcus et al., 1993)上得出的实验结果表明,我们的方法在基础的 HMM 模型和 DMV 的性能上有极大的提升,获得了目前在词性标注归纳任务上最好的实验结果,还在既没有黄金 POS 标签也没有基于标点的约束条件的困难训练场景下获得了目前最好的实验结果。
论文:Unsupervised Learning of Syntactic Structure with Invertible Neural Projections
论文链接:https://arxiv.org/pdf/1808.09111v1.pdf
摘要:句法结构的无监督学习通常是使用带有离散潜在变量和多项式参数的生成模型进行的。在大多数情况下,这些模型都没有利用连续的词表征。本文提出了一种新的生成模型,通过将带结构化生成先验的可逆神经网络级联起来,用无监督的方式一同学习离散句法结构和连续词表征。我们的研究表明,只要先验知识能很好地起作用,可逆性条件就能帮助我们在模型中进行高效的精确推理和边缘似然计算。在实验中,我们用马尔可夫结构先验和树结构先验实例化了我们的方法,对两项任务进行了评价:词性标注(POS)归纳和不带有黄金 POS 标签的无监督依存分析。在 Penn Treebank 数据集上,我们的马尔可夫结构模型在词性标注归纳任务上的性能超过了目前最先进的模型。同样地,我们发现我们的树结构模型在既没有黄金词性标注标签也没有基于标点的约束条件的困难训练条件下,在无监督依存分析任务中达到了当前最优性能。
图 3:逆投影 的架构示意图,它组成了多个保积耦合层,我们通过这些层对我们的模型进行参数化处理。在图的右侧,我们用图表描述了逆投影是如何将观察到的词嵌入 x_i 转换到新的嵌入空间中的点 e_i 上去的。
表 1:在完整的 WSJ 数据集上的无监督词性标注结果,与其它的对比基线和目前最先进的系统对比。当标准差可得时,我们在括号中给出了标准差。
图 4:为词性标注实验建立的归一化后的混淆矩阵,行标签代表黄金标签。
表 2:WSJ 数据集第 23 章的定向依存准确率,分别在长度为 6-10 的句子以及所有长度的句子上进行评估。带(*)的记录表示系统从额外的基于标点的约束条件中获益。当标准差可得时,我们在括号中给出了标准差。