2019/11/20 17:08

史上最全解读 | 飞桨模型库重大升级，主流算法模型全覆盖

11 月 5 日，在 Wave Summit+2019 深度学习开发者峰会上，飞桨全新发布和重要升级了最新的 21 项进展，在深度学习开发者社区引起了巨大的反响。

很多未到场的开发者觉得遗憾，希望可以了解飞桨发布会背后的更多技术细节，因此我们特别策划了一个系列稿件，分别从核心框架、基础模型库、端到端开发套件、工具组件和服务平台五个层面分别详细解读飞桨的核心技术与最新进展，敬请关注。

今天给大家带来的是系列文章之飞桨的基础模型库解读。

飞桨模型库，包含智能视觉（PaddleCV），智能文本处理（PaddleNLP），智能语音（PaddleSpeech）和智能推荐（PaddleRec）四大领域，飞桨官方支持 100 多个经过产业实践长期打磨的主流模型，其中包括在国际竞赛中夺得冠军的模型；同时开源开放 200 多个预训练模型，助力快速的产业应用。核心内容 1562 字，预计阅读时间 3 分钟。全文 7659 字，强烈建议收藏备查。

飞桨全景图，本文主要针对基础模型库部分进行深度解读。

第一部分，首先看一下最新版本模型库的主要更新点。

本次主要更新点

1.1. PaddleCV

发布训练部署端到端的图像分割库 PaddleSeg，图像分类新增 EfficientNet 等 43 个预训练模型。PaddleDetection 新增 2019 Objects365 Full Track 冠军模型、BlazeFace 等人脸检测小模型，行人检测和车辆检测的预训练模型。PaddleVideo 新增 ActivityNet Challenge 2019 夺冠模型，扩展包含 video caption、video grounding 等模型。

1.2. PaddleNLP

发布全新 seq2seq 相关 API 和文本生成模型样例。语义表示库新增 XLNet 预训练模型；开源 EMNLP 2019 阅读理解竞赛冠军模型 D-NET，同时支持 18 个不同抽取式阅读理解数据集打榜。发布飞桨多任务学习库 PALM （PAddLe Multi-task learning），更便捷支持多任务机器学习调研。

1.3. PaddleSpeech

全新发布，包含语音识别模型 DeepSpeech 和语音合成模型 DeepVoice3。

1.4. PaddleRec

增加 PaddleRec 的更多模型覆盖。

以上可以看到，本次的升级点中，飞桨提供了更多的官方支持模型和预训练模型，同时也开源多个国际冠军模型，截至目前，飞桨已官方支持超过 100 个模型和 200 多个预训练模型，极大的方便开发者的快速应用实践。

飞桨模型库发布全新完整解读

本次新版发布，飞桨模型库增加了 8 类任务下的 40 多个算法模型，覆盖任务门类更全面，算法模型更丰富，基本可以满足产业应用的各种业务需求，快速助力开发者实际项目的落地实现。

▲ 官方支持100多个算法，200多个预训练模型

飞桨的模型库已经比较完备地支持了自然语言处理，计算机视觉、推荐和语音四大领域。官方支持的模型从 60 个扩充到了 100 多个，新增了对于语音算法的支持。截至目前，飞桨已经可以支持人工智能领域应用主流算法模型的。开发者在工业应用项目落地中，可以利用飞桨模型库中快速实现。

具体来看，在计算机视觉领域，飞桨在图像分类、生成、检测、视频理解、图像分割等领域都有新增的模型。在自然语言处理领域，飞桨在语义表示、阅读理解和问答上有升级，同样，在推荐、语音方面，都做了进一步的完善和升级。

除了对于经典模型的支持，飞桨还开源了多项百度在国际竞赛中夺冠的算法模型，这里面既包括在计算机视觉领域的视频理解、人像分割，也包含自然语言处理领域的阅读理解。

值得一提的是，在近期刚刚召开的 NLP 领域顶级会议 EMNLP 中，飞桨的 D-NET 模型，击败众多重量级参赛玩家，在这次竞赛当中得了 10 项阅读理解的冠军。这个模型飞桨也毫无保留的开放给广大开发者。

下面，我们将从主流四大领域分别为开发者介绍飞桨模型库的一些核心内容，因为算法模型数量众多且受限于篇幅，仅对算法模型的分类及名称、简介和应用场景、以及在不同数据集上的评价指标进行了整理。

一方面，对于刚入门的开发者，可以提供模型库的整体宏观视角，另一方面，本文也可以作为一个速查手册，强烈建议收藏，供开发者快速根据需求选用。

如果迫不及待想了解某个算法的详细内容，可以直接传送门走起！

https://github.com/PaddlePaddle/models

智能视觉PaddleCV

3.1. 图像分类

图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉中重要的基础问题，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础，在许多领域都有着广泛的应用。如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。

更多图像分类模型请参考 Image Classification：

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification

3.2. 目标检测

目标检测任务的目标是给定一张图像或是一个视频帧，让计算机找出其中所有目标的位置，并给出每个目标的具体类别。对于计算机而言，能够“看到”的是图像被编码之后的数字，但很难解图像或是视频帧中出现了人或是物体这样的高层语义概念，也就更加难以定位目标出现在图像中哪个区域。

目标检测模型请参考 PaddleDetection：

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection

3.3. 图像分割

图像语义分割顾名思义是将图像像素按照表达的语义含义的不同进行分组/分割，图像语义是指对图像内容的理解，例如，能够描绘出什么物体在哪里做了什么事情等，分割是指对图片中的每个像素点进行标注，标注属于哪一类别。近年来用在无人车驾驶技术中分割街景来避让行人和车辆、医疗影像分析中辅助诊断等。

3.4.关键点检测

人体骨骼关键点检测 (Pose Estimation) 主要检测人体的一些关键点，如关节，五官等，通过关键点描述人体骨骼信息。人体骨骼关键点检测对于描述人体姿态，预测人体行为至关重要。是诸多计算机视觉任务的基础，例如动作分类，异常行为检测，以及自动驾驶等等。

3.5. 图像生成

图像生成是指根据输入向量，生成目标图像。这里的输入向量可以是随机的噪声或用户指定的条件向量。具体的应用场景有：手写体生成、人脸合成、风格迁移、图像修复等。PaddleGAN 包含和图像生成相关的多个模型。

3.6. 场景文字识别

场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下，将图像信息转化为文字序列的过程，可认为是一种特别的翻译过程：将图像输入翻译为自然语言输出。

3.7. 度量学习

度量学习也称作距离度量学习、相似度学习，通过学习对象之间的距离，度量学习能够用于分析对象时间的关联、比较关系，在实际问题中应用较为广泛，可应用于辅助分类、聚类问题，也广泛用于图像检索、人脸识别等领域。

3.8. 视频分类和动作定位

视频分类和动作定位是视频理解任务的基础。

视频数据包含语音、图像等多种信息，因此理解视频任务不仅需要处理语音和图像，还需要提取视频帧时间序列中的上下文信息。

视频分类模型提供了提取全局时序特征的方法，主要方式有卷积神经网络 (C3D, I3D, C2D 等)，神经网络和传统图像算法结合 (VLAD 等)，循环神经网络等建模方法。

视频动作定位模型需要同时识别视频动作的类别和起止时间点，通常采用类似于图像目标检测中的算法在时间维度上进行建模。

智能文本处理PaddleNLP

PaddleNLP 是基于飞桨深度学习框架开发的自然语言处理 (NLP) 工具，算法，模型和数据的开源项目。百度在 NLP 领域十几年的深厚积淀为 PaddleNLP 提供了强大的核心动力。使用 PaddleNLP，您可以得到：

丰富而全面的 NLP 任务支持：PaddleNLP 为您提供了多粒度，多场景的应用支持。涵盖了从分词，词性标注，命名实体识别等 NLP 基础技术，到文本分类，文本相似度计算，语义表示，文本生成等 NLP 核心技术。同时，PaddleNLP 还提供了针对常见 NLP 大型应用系统（如阅读理解，对话系统，机器翻译系统等）的特定核心技术和工具组件，模型和预训练参数等，让您在 NLP 领域畅通无阻。
稳定可靠的 NLP 模型和强大的预训练参数：PaddleNLP 集成了百度内部广泛使用的 NLP 工具模型，为您提供了稳定可靠的 NLP 算法解决方案。基于百亿级数据的预训练参数和丰富的预训练模型，助您轻松提高模型效果，为您的 NLP 业务注入强大动力。
持续改进和技术支持，零基础搭建 NLP 应用：PaddleNLP 为您提供持续的技术支持和模型算法更新，为您的 NLP 业务保驾护航。

4.1. NLP基础技术

4.1.1. 中文词法分析 LAC (Lexical Analysis of Chinese)

百度自主研发中文特色模型词法分析任务，集成了中文分词、词性标注和命名实体识别任务。输入是一个字符串，而输出是句子中的词边界和词性、实体类别。

4.1.2.词向量（Word2vec）

提供单机多卡，多机等分布式训练中文词向量能力，支持主流词向量模型（skip-gram，cbow 等），可以快速使用自定义数据训练词向量模型。

4.1.3. 语言模型 (Language_model)

给定一个输入词序列（中文需要先分词、英文需要先 tokenize），计算其生成概率。语言模型的评价指标 PPL (困惑度)，用于表示模型生成句子的流利程度。

4.2. NLP 核心技术

4.2.1. 语义表示

PaddleLARK (Paddle LAngauge Representation ToolKit) 是传统语言模型的进一步发展，通过在大规模语料上训练得到的通用的语义表示模型，可以助益其他自然语言处理任务，是通用预训练 + 特定任务精调范式的体现。PaddleLARK 集成了 ELMO，BERT，ERNIE 1.0，ERNIE 2.0，XLNet 等热门中英文预训练模型。

4.2.2. 文本相似度计算

SimNet (Similarity Net) 是一个计算短文本相似度的框架，主要包括 BOW、CNN、RNN、MMDNN 等核心网络结构形式。SimNet 框架在百度各产品上广泛应用，提供语义相似度计算训练和预测框架，适用于信息检索、新闻推荐、智能客服等多个应用场景，帮助企业解决语义匹配问题。

4.2.3. 文本生成

PaddleTextGEN (Paddle Text Generation) ,一个基于飞桨的文本生成框架，提供了一些列经典文本生成模型案例，如 vanilla seq2seq，seq2seq with attention，variational seq2seq 模型等。

4.3. NLP 系统应用

4.3.1. 情感分析

4.3.2. 阅读理解

PaddleMRC (Paddle Machine Reading Comprehension)，集合了百度在阅读理解领域相关的模型，工具，开源数据集等一系列工作。

4.3.3. 机器翻译

PaddleMT ，全称为 Paddle Machine Translation，基于 Transformer 的经典机器翻译模型，基于论文《Attention Is All You Need》：https://arxiv.org/abs/1706.03762

4.3.4. 对话系统

PaddleDialogue 包含对话系统方向的模型、数据集和工具。

百度最新前沿工作开源，请参考 Research：

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research

智能推荐PaddleRec

个性化推荐，在当前的互联网服务中正在发挥越来越大的作用，目前大部分电子商务系统、社交网络，广告推荐，搜索引擎，都不同程度的使用了各种形式的个性化推荐技术，帮助用户快速找到他们想要的信息。PaddleRec 包含的模型如下。

智能语音PaddleSpeech

PaddleSpeech 包含语音识别和语音合成相关的模型。

想与更多的深度学习开发者交流，请加入飞桨官方 QQ 群：796771754。

如果您想详细了解更多飞桨 PaddlePaddle 的相关内容，请参阅以下文档。

官网地址：

https://www.paddlepaddle.org.cn/

项目地址：

https://github.com/PaddlePaddle/models

飞桨PaddlePaddle

飞桨(PaddlePaddle)是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。

https://www.paddlepaddle.org

入门模型训练度量学习图像生成人脸关键点检测图像分割图像分类

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法，以便可以对注释词执行检索。手动图像注释耗时，费力且昂贵; 为了解决这个问题，人们已经对自动图像标注进行了大量研究。

来源：Image retrieval

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

度量学习技术

即学习一个度量空间，在该空间中的学习异常高效，这种方法多用于小样本分类。直观来看，如果我们的目标是从少量样本图像中学习，那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是，正如你可能想到的那样，在像素空间里进行图像对比的效果并不好。不过，你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似，元学习通过梯度下降（或者其他神经网络优化器）来进行，而学习者对应对比机制，即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好，不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

来源：机器之心

词法分析技术

词法分析是计算机科学中将字符序列转换为标记序列的过程。进行词法分析的程序或者函数叫作词法分析器，也叫扫描器。词法分析器一般以函数的形式存在，供语法分析器调用

来源：维基百科

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

多任务学习技术

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

百度智能云机构