飞桨PaddlePaddle原创

2019/06/06 15:33

飞桨带你了解：基于百科类数据训练的 ELMo 中文预训练模型

在NLP世界里，有一支很重要的家族，英文叫做LARK（LAnguage Representations Kit），翻译成中文是语言表示工具箱。目前LARK家族最新最重要的三种算法，分别是ELMo，BERT和ERNIE。

你一定不知道，这三个普通的名字，竟然包含着一个有趣的秘密。

真相，即将揭开！

我们先从算法模型的名字寻找一些蛛丝马迹

第一位，ELMo：

来自英文Embedding from Language Models 的缩写，来自论文名为Deep contextualized word representation

第二位，BERT:

来自英文Bidirectional Encoder Representations from Transformers的缩写，来自论文名为Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding

第三位，ERNIE:

来自英文Enhanced Representation through kNowledge IntEgration) 的缩，来自论文名为Enhanced Representation through Knowledge Integration

看完了，是不是，还是一头雾水，哪里有什么秘密？

不卖关子了，直接上图！

What？？

再回头看看，你还记得那三个算法的名字么？

ELMo，BERT，ERNIE

竟然都是美国经典动画片，《Sesame Street（芝麻街）》里面的卡通人物！！！

好吧，如果你说，没看过这个动画片，没感觉啊。那我举个例子，如果把《芝麻街》类比成中文《舒克和贝塔》。那么，第一篇论文把模型取做“舒克”，第二篇很有爱的就叫做“贝塔”，第三篇就硬把模型叫做“皮皮鲁”，也许不久的下一个模型就命名为“鲁西西”啦。

谁说科学家们很无聊，是不是也很童趣？

好了，扯远了，今天我们先给大家介绍LARK家族的ELMo！提出它的论文获得2018年NAACL最佳paper，它在NLP领域可是有着响当当的名头，让我们来认识它！

ELMo模型简介

ELMo(Embeddings from Language Models) 是重要的通用语义表示模型之一，以双向 LSTM 为网路基本组件，以 Language Model 为训练目标，通过预训练得到通用的语义表示，将通用的语义表示作为 Feature 迁移到下游 NLP 任务中，会显著提升下游任务的模型性能。

ELMo模型核心是一个双层双向的LSTM网络，与传统的word2vec算法中词向量一成不变相比，ELMo会根据上下文改变语义embedding。

一个简单的例子就是 “苹果”的词向量：

句子1：“我买了 1斤苹果”

句子2：“我新买了 1个苹果 X”

在word2vec算法中，“苹果”的词向量固定，无法区分这两句话的区别，而ELMo可以解决语言中的二义性问题，可以带来性能的显著提升。

ELMo项目的飞桨（PaddlePaddle）实现

为了方便广大的开发者，飞桨（PaddlePaddle）完成了ELMo的开源实现（依赖于 Paddle Fluid 1.4），发布要点如下。

注意啦，下面划重点！！！

基于百科类数据训练的 ELMo 中文预训练模型。

完整支持 ELMo 多卡训练，底层算子优化，训练速度比主流实现快约1倍。

下游任务的性能明显提升：LAC 任务加入 ELMo 后 F1 可以提升 1.1%；阅读理解任务加入 ELMo 后 Rouge-L 提升 1%。

接下来，我们看看怎么可以快速把ELMo用到我们的项目中来吧！

ELMo训练过程介绍

（1）数据预处理

将文档按照句号、问号、感叹以及内容分词预处理。预处理后的数据文件，每行为一个分词后的句子。给出了训练数据 data/train 和测试数据 data/dev的数据示例如下：

本书介绍了中国经济发展的内外平衡问题、亚洲金融危机十周年回顾与反思、实践中的城乡统筹发展、未来十年中国需要研究的重大课题、科学发展与新型工业化等方面。

吴敬琏曾经提出中国股市 “ 赌场论 ” ，主张维护市场规则，保护草根阶层生计，被誉为 “ 中国经济学界良心 ” ，是媒体和公众眼中的学术明星

（2）模型训练

利用提供的示例训练数据和测试数据，进行单机多卡预训练。在开始预训练之前，需要把 CUDA、cuDNN、NCCL2 等动态库路径加入到环境变量 LD_LIBRARY_PATH 之中，然后执行run.sh即可开始单机多卡预训练，run.sh文件内容如下：

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7python 
 train.py \--train_path='data/train/sentence_file_*'  \
--test_path='data/dev/sentence_file_*'  \
--vocab_path data/vocabulary_min5k.txt \
--learning_rate 0.2 \
--use_gpu True \
--all_train_tokens 35479 \
--local True $@

其中，all_train_tokens为train和dev统计出来的tokens总量，训练过程中，默认每个epoch后，将模型参数写入到 checkpoints 路径下，可以用于迁移到下游NLP任务。

（3）ELMo模型迁移

以 LAC 任务为示例, 将 ELMo 预训练模型的语义表示迁移到 LAC 任务的主要步骤如下：

#step1: 在已经搭建好的LAC 网络结构之后，加载 ELMo 预训练模型参数：

from bilm import
 init_pretraining_params
init_pretraining_params(exe,args.pretrain_elmo_model_path, fluid.default_main_program())

#step2: 基于ELMo 字典将输入数据转化为 word_ids，利用 elmo_encoder接口获取 ELMo embedding：

from bilm import
 elmo_encoderelmo_embedding = elmo_encoder(word_ids)

#step3: ELMoembedding与 LAC 原有 word_embedding 拼接得到最终的 embedding：

word_embedding=fluid.layers.concat(input=[elmo_embedding, word_embedding], axis=1)

好的，到这里，模型的迁移就完成了，再来回顾一下加入ELMo后对性能的提升，心动不如行动，赶紧用起来吧！

ERNIE模型简介

学习完了ELMo，我们再来了解一下LARK家族的学习成绩最好的重磅成员ERNIE，在多项NLP中文任务上表现非凡。

ERNIE通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，ERNIE 模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。

ERNIE在多个公开的中文数据集上进行了效果验证，包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上，均超越了语义表示模型 BERT 的效果。

飞桨PaddlePaddle

飞桨(PaddlePaddle)是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。

https://www.paddlepaddle.org

入门NLP

相关数据

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

ELMo技术

ELMO 是“Embedding from Language Models”的简称， ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练；第二个阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

来源：机器之心