2018/12/28 13:22

参与路雪

NLP预训练模型大集合！

词语和句子嵌入已经成为任何基于深度学习的自然语言处理系统的必备组成部分。它们将词语和句子编码成稠密的定长向量，从而大大地提升神经网络处理文本数据的能力。近日，Separius 在 GitHub 上列举了一系列关于 NLP 预训练模型的近期论文和文章，力求全面地概述 NLP 各个方面的最新研究成果，包括词嵌入、池化方法、编码器、OOV 处理等。

GitHub 地址：https://github.com/Separius/awesome-sentence-embedding

通用框架

几乎所有句子嵌入的工作原理都是这样的：给出某种词嵌入和可选编码器（例如 LSTM），句子嵌入获取语境词嵌入（contextualized word embedding）并定义某种池化（比如简单的 last pooling），然后基于此选择直接使用池化方法执行监督分类任务（如 infersent），或者生成目标序列（如 skip-thought）。这样通常我们就有了很多你从未听说过的句子嵌入，你可以对任意词嵌入做平均池化，这就是句子嵌入！

词嵌入

这部分 Separius 介绍了 19 篇相关论文，包括 GloVe、word2vec、fastText 等预训练模型：

OOV 处理

A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors：基于 GloVe-like 嵌入的近期结果构建 OOV 表征，依赖于使用预训练词向量和线性回归可高效学习的线性变换。
Mimicking Word Embeddings using Subword RNNs：通过学习从拼写到分布式嵌入的函数，合成地生成 OOV 词嵌入。

语境词嵌入

这部分介绍了关于语境词嵌入的 5 篇论文，包括近期大热的 BERT。

机器之心介绍过这五篇论文中的其中四篇，参见：

池化方法

{Last, Mean, Max}-Pooling
Special Token Pooling（如 BERT 和 OpenAI's Transformer）
A Simple but Tough-to-Beat Baseline for Sentence Embeddings：选择一种在无监督语料库上常用的词嵌入计算方法，使用词向量的加权平均值来表征句子，并且使用 PCA/SVD 进行修改。这种通用的方法有更深刻和强大的理论动机，它依赖于一个生成模型，该生成模型使用了一个语篇向量上的随机游走生成文本。
Unsupervised Sentence Representations as Word Information Series: Revisiting TF–IDF：提出了一种将句子建模为词嵌入的加权序列的无监督方法，该方法从无标注文本中学习无监督句子表征。
Concatenated Power Mean Word Embeddings as Universal Cross-Lingual Sentence Representations：将平均词嵌入的概念泛化至幂平均词嵌入。
A Compressed Sensing View of Unsupervised Text Embeddings, Bag-of-n-Grams, and LSTMs：从压缩感知理论的角度看结合多个词向量的表征。

编码器

这部分介绍了 25 篇论文，包括 Quick-Thought、InferSent、SkipThought 等预训练模型。

评估

这部分主要介绍词嵌入、句子嵌入的评估和基准：

The Natural Language Decathlon: Multitask Learning as Question Answering
SentEval: An Evaluation Toolkit for Universal Sentence Representations
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
Exploring Semantic Properties of Sentence Embeddings
Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks
How to evaluate word embeddings? On importance of data efficiency and simple supervised tasks
A Corpus for Multilingual Document Classification in Eight Languages
Olive Oil Is Made of Olives, Baby Oil Is Made for Babies: Interpreting Noun Compounds Using Paraphrases in a Neural Model
Community Evaluation and Exchange of Word Vectors at wordvectors.org
Evaluation of sentence embeddings in downstream and linguistic probing tasks

向量图

Improving Vector Space Word Representations Using Multilingual Correlation：提出了基于典型相关分析（CCA）结合多语言 evidence 和单语生成向量的方法。
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings：提出一种新的无监督自训练方法，该方法采用更好的初始化来引导优化过程，这种方法对于不同的语言对而言尤其强大。
Unsupervised Machine Translation Using Monolingual Corpora Only：提出将机器翻译任务转换成无监督式任务。在机器翻译任务中，所需的唯一数据是两种语言中每种语言的任意语料库，而作者发现如何学习两种语言之间共同潜在空间（latent space）。参见：无需双语语料库的无监督式机器翻译

此外，Separius 还介绍了一些相关的文章和未发布代码或预训练模型的论文。

工程fastTextNLP

相关分析技术

相关分析就是对总体中确实具有联系的标志进行分析，其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升，这说明两指标间是正相关关系；而在另一时期，随着经济水平进一步发展，出现出生率下降的现象，两指标间就是负相关关系。

来源：MBA智库

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

来源：Stanford NLP

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

线性回归技术

在现实世界中，存在着大量这样的情况：两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值，但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高，用Y表示他的体重。众所周知，一般说来，当X大时，Y也倾向于大，但由X不能严格地决定Y。又如，城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时，由于室内空调、冰箱等家用电器的使用，可能用电就高，相反，在春秋季节气温不高也不低，用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多，变量之间的这种关系称为“相关关系”，回归模型就是研究相关关系的一个有力工具。

来源：王松桂等编线性统计模型线性回归与方差分析高等教育出版社 Wikipedia

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

fastText技术

Facebook开发的文本处理工具，是一个用于高效学习单词表示和句子分类的库。

来源：Facebook

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

压缩感知技术

压缩感知（Compressed sensing），也被称为压缩采样（Compressive sampling）或稀疏采样（Sparse sampling），是一种寻找欠定线性系统的稀疏解的技术。压缩感知被应用于电子工程尤其是信号处理中，用于获取和重构稀疏或可压缩的信号。这个方法利用讯号稀疏的特性，相较于奈奎斯特理论，得以从较少的测量值还原出原来整个欲得知的讯号。核磁共振就是一个可能使用此方法的应用。这一方法至少已经存在了四十年，由于David Donoho、Emmanuel Candès和陶哲轩的工作，最近这个领域有了长足的发展。近几年，为了因应即将来临的第五代移动通信系统，压缩感知技术也被大量应用在无线通讯系统之中，获得了大量的关注以及研究。

来源：百度百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科