论文原文:https://arxiv.org/pdf/1907.00505.pdf
论文背景 Background
现有的词嵌入方法通常假设在语料中每个词都出现足够多次,这样我们就可以通过词的上下文获得该词的词表示。但在现实世界的场景中,经常有些词不会频繁出现在训练集中,这就为学习他们的词表示带来了挑战。
为此,今天我们要介绍的这篇论文将学习词表外词表示看做few-shot回归问题,提出了一种新的基于层次关注的架构作为神经回归函数,利用该神经回归函数,从K个观察值对单词的上下文信息进行编码和聚合。此外,还可以利用模型不可知元学习(MAML)来快速有效地使学习模型适应新的语料库。
论文模型 Model
最近关于上下文词表示的工作[1]表明,使用深度模型以自监督的方式捕捉语言特定的语义语法知识是可行的。在这些工作的启发下,本文提出了一种分层上下文编码(HiCE)架构,用于从上下文中提取和聚合信息,并且可以轻松地合并上下文的形态特征。
文中HiCE主要基于[2]提出的自注意编码块,每个编码块包含一个自注意层和一个逐点全连接层。这样的编码块可以丰富序列输入的交互并有效地提取本地和全局信息。
自关注(SA)是注意机制的变体,可以单独参与序列,其表达式如下
在上式中,对于每一个head,首先通过三个不同的线性投影W将序列输入矩阵x转换为查询-键-值矩阵,然后计算矩阵内积
,再按序列输入的维数的平方根进行缩放获得序列的相互关注矩阵,最后使用计算的关注矩阵聚合值矩阵,得到aself,i作为第i个自注意向量。
将这些自注意向量结合起来与线性投影WO相乘,得到可以表示序列x相互关系的不同方面的SA(x):
自关注层之后是完全连接的前馈网络(FFN),其对序列输入x的每个位置应用非线性变换。
如图1所示,HiCE主要包括上下文编码器和多上下文聚合器两层。对于每个给定单词wt及其K掩码的支持上下文集合
,较低级别的上下文编码器(E)将每个句子st,k作为输入,经过位置关注和自注意编码块,输出编码的上下文嵌入。之后,多上下文聚合器通过另一个自关注编码块组合了多个编码的上下文。由于上下文的顺序可以是任意的,不应影响聚合,因此不需要在多上下文聚合器中应用位置注意。
为了解决训练语料与实际使用的语言语义差异,本文采用模型不可知元学习(MAML)[3]来实现快速和稳健的适应。MAML不是简单地微调DN上的神经回归函数Fθ,而是提供了一种学习微调的方法。也就是说,首先在DT上训练模型以获得更有希望的初始化,基于此,仅通过几个示例对DN上的模型进行微调就可以很好地概括。
对于训练时的每一次迭代,首先使用DT中的足够数据进行梯度下降以学习更新的权重θ*
然后将θ*视为初始化权重,以优化DN中有限数据的θ。每个训练集的最终更新可以表示为:(其中α和β都是两个学习率的超参数)
上述优化可以用随机梯度下降(SGD)进行。通过这种方式,从DT学到的知识可以提供良好的初始表示,可以通过DN中的一些示例进行有效微调,从而实现快速和稳健的自适应。
论文实验 Test
本文在Chimera Benchmark上对词嵌入以及一些下游任务(NER、POS tagging)进行了评估,实验效果如下表所示,实验表明,在DT上训练的HiCE已经能够利用可以通过不同域传递的一般语言知识,并且通过MAML的适应可以进一步缩小域差距并提高性能。
参考文献
[1] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In NAACL-HLT, pages 2227–2237. Association for Computational Linguistics.
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 6000–6010.
[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 1126–1135.