2018/11/13 17:03

达观数据王文广：如何玩转自然语言理解和深度学习实践？

本文根据达观数据王文广在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。

一、深度学习概述

深度学习是从机器学习基础上发展起来的，机器学习分为监督学习、非监督学习以及强化学习三种类型。深度学习是在机器学习的基础上把特征抽取工作放到里面一起来完成的，直接实现了端到端的学习。通常我们遇到的深度网络包括：堆叠自编码器、深度信念网络、卷积神经网络和循环神经网络。

下面左边这张图是自编码器的一个网络结构示意图，自编码器的特点是输入和输出是完全一样的，它通过将输入复制到输出，去学习它在隐层里面的表示。右边是堆叠自编码器，它可以把自编码器的隐层不断堆叠起来，形成多层的深度网络。

与堆叠自编码器一样，深度信念网络是在限制玻尔兹曼机基础上叠出来的一个网络，限制玻尔兹曼机是神经网络里面最基础的网络结构之一，通过将多个限制玻尔兹曼机堆叠起来形成的深度网络，是深度学习里面最基本的网络结构之一。

深度学习被最广泛使用的是从卷积神经网络开始的，卷积神经网络的示意图如这张图片所示，它通过卷积和对输入的局部特征进行学习，来达到最终的目标。卷积神经网络被广泛应用于文本处理和图像识别当中。

深度学习另外一个被广泛使用的网络是循环神经网络，循环神经网络有非常多的变种，这张图是它其中的一个，叫LSTM，经常被用于语音识别和文本处理当中。

从上面网络可以看出来，深度学习是在神经网络的基础上发展起来的，神经网络早期的效果并不是特别好，但是从两千零几年开始，因为海量数据的积累、逐层训练技术的出现以及以GPU为代表的计算性能的极大提升，使得深度学习能效果越来越好，被广泛应用于语音识别、计算机视觉、自然语言处理中。自然语言处理就会用到非常多深度学习的算法。

二、自然语言理解概述

自然语言理解所处理的对象是文本，文本是广泛存在于我们的日常生活和工作当中的，像达观数据所擅长处理的是正式文本或者长文本，长文本像法律文书、人事档案、证券专业文书、企业手册、新闻文章、问答资料、客户评论意见等都是我们常的文本，它几乎存在于所有的行业中，金融、法律、媒体、互联网、政府、公共机构、大型企业，无所不在，如果能够使用自然语言理解和机器学习的方法，使得大量需要人工处理的海量文档自动化，将会非常大地提高企业和政府部门的工作效率。

然而，让计算机来理解文本是非常难的一件事情，首先，计算机缺乏常识以及专业的背景知识，而人类通常拥有非常丰富的专业知识和背景。比如对“future”的理解，普通人认为是“未来”，但对于金融相关的专业可能就会认为是“期货”，而“期货”对金融专业人士来说是一个语境，这是计算机所不存在的一个场景。

除此之外，人类说话本身非常的抽象和模糊，通常拥有非常多的歧义或者语境信息在里面。我们通常在见到朋友时会说“吃饭了吗？”“吃饭了吗”对计算机来说就是“吃饭了吗”四个字，而对人类来说它通常拥有丰富的隐含意义在里面。

从分词的角度，我们可以看词本身的粒度问题，“中华人民共和国”和“中国”本身意义是一样的。还有指代归属问题，当人与人之间交流时候，你说的“你、我、他”能够自然而然的被替换成相应的目标，而计算机来解决指代归属问题也是非常难的一个事情。除此之外，还有同义词、近义词、局部转义、一词多义等问题。

比如一词多义的问题，大家在网络上看到过一个段子，“方便方便，意思意思”然后去理解“方便方便”和“意思意思”不同的意思。计算机同样存在这个问题，它如何理解“方便方便”和“意思意思”的不同意思和不同的方便程度。

再从词语构造成句子的过程中也会遇到非常多的问题，因为对人类来说，句子之间的部分结构发生颠倒，人类依然能够正常的理解，但是对计算机来说，它对于像“你上班了吗？”“班上你了吗？”就有难度。

再往上，语义层面的歧义就更多了，“咬死猎人的狗”如果在没有上下文语境的情况下，人类也非常的难以理解，到底是狗咬死了猎人，还是某些动物把猎人的狗给咬死了，这就是所谓的语境。

除了语境之外，还有比较多的领域知识、专家知识，比如最近爆雷非常多的P2P，有一个特点是利息比较高。当利息高过了一定程度，存在问题的概率比较高了。这类专家的知识对计算机来说也是一个问题。

“企业清算时按投资年复率20%给予补偿”，这句话如果存在合同当中，往往是需要注意的点。因为通常不超过12%，20%的利率过高。这个『过高』是写错了、还是因为其他特殊原因，遇到这种问题时就需要通过双重确认，来确保文本的正确。

为了解决这些问题，我们使用各种机器学习和深度学习的方法来建立模型，通过海量的文本进行训练这个模型来预测未来。这个方式有点类似于人脑，人是要通过学习，学习很多专业知识，当学完知识之后，在未来遇到这些问题时，就会通过类似于机器学习的模型来实现预测和判断。

在建立这些模型的过程中，我们通常会分为字词级分析、段落级分析、篇章级分析。

字词级分析是我们通常所遇到的像分词、命名实体识别、同义词分析等。段落级分析是从句子到段落层面来对文本进行建模，它一般包括依存文法分析、文本纠错等。从段落往上是篇章级分析，篇章级分析更多是语义层面的理解，它通常包括像文本相似度、主题模型、文章的聚类分类和标签提取。

三、文本语义分析及其应用实践

文本语义分析首先是表示学习。表示学习通常传统上对文本的表示是通过One-hot编码来实现的，在深度学习出来以后，往往使用稠密的向量编码来对文本表示。

词向量的稠密表示具有非常大的优势，一方面是它的维度降低得非常多，一般情况下200-300维就足够以表达中文的词汇，而one-hot编码往往需要50万-100万维来表示。除此之外，词向量还能表达词的语义层面的相似性。

对词向量经典的训练方法是谷歌发表的原始的“Word2Vec”这篇论文里提到的两种方法，词袋模型和跳跃表。词袋模型是用词的上下文信息来表示这个词本身，而跳跃表则是用词的本身来表达词的上下文信息。在“Word2Vec”基础之上还发展出包含了全局信息的GloVe方法。

除了词向量之外，深度学习的各种网络结构也被用来进行文本分析。比如对句子进行分类，可以使用卷积神经网络来实现。

层次注意力模型是最新的一个网络，它最早被使用来对评论进行打分。层次注意力模型有一个非常大的优点，就是它考虑了文本或者是篇章的结构，它是从词开始，到句子的一个注意力模型，再到整个篇章是另一个注意力模型。它另外的一个优点是可以把整个网络结构的参数可视化出来，来解释词、句子对目标的贡献的大小。

除此之外，另外一篇最新的论文所提出来的金字塔结构的卷积神经网络模型，可以非常高效的对长文本进行表示学习，最终达到一个非常好的分类效果或者标签提取类效果。

除了分类和标签提取之外，信息抽取也可以用深度学习来实现，达观通常会把信息抽取问题转化成四种类型的分类问题来实现的，这样就可以充分利用前面所提到的各种网络结构，比如层次注意力模型和金字塔结构的卷积神经网络。

对于像NER或者分词这种任务来说，我们也会使用“深度学习+CRF”的方法来实现，这张PPT里面讲的就是使用“词向量+LSTM+CRF”方法来实现NER。

像这张使用“词向量+Bi-SLTM+CRF”通常情况下效果都是非常好的。但是对于某些特定场景下它还会有一些不足，比如非常专业的文献，这种情况下会遇到非常低频的词汇，如何对这些低频的词汇进行处理是我们需要考虑的一个问题。

达观数据采用了一个方法，是把低频词汇和专业领域的词汇通过某种表示，和原始的词向量一起拼接，作为LSTM和CRF的输入，来实现对这些低频词汇问题的解决。充分利用这些深度学习的模型和应用实践所总结出来的经验，我们可以非常高效的去处理像企业通常所遇到的合同、简历、工单、新闻、用户评论、产品说明这些文档。

四、推荐系统及其应用实践

推荐系统非常的火热，像今日头条和抖音这种通过算法推荐用户所感兴趣的东西，让用户不离开APP，都是非常成功的案例。国内类似于的趣头条都比较小的企业或者APP也非常多，它们往往会选择一家像达观这样的SaaS服务来实现它们的推荐系统。推荐系统的基本过程是像这张PPT里面所讲的一样，通过对原始的数据进行处理，使用到自然语言理解里面的分词和NER技术，使用文本的分类、主题模型、情感分析等，把这个分析结果放到搜索引擎，达观使用的搜索引擎是Elasticsearch集群，在这些集群里面会实现一个初步的Ranking处理。

以搜索引擎为基础，我们使用各种推荐算法，像协同过滤和基于内容的推荐算法，以及深度学习出来以后的神经网络协同过滤的方法，来对这种文档进行推荐。不同的推荐算法会在同个场景下推荐出不同的内容，在这个基础上我们会使用一些融合算法，来把这些不同算法推荐的结果进行融合。我们常用的推荐融合算法包括GBDT、SVD等。

在深度学习上也有一些算法，像DeepFM这种算法也可以用来做算法融合，做推荐内容的融合。通过融合算法把不同推荐算法、推荐内容给融合起来之后，还会根据APP所要求的业务规则和过滤规则，来对这些内容进行过滤，最终把这些过滤好的结果发送给用户，这个是我们整个推荐系统的一个基本的过程。

对于推荐系统来说，底层的像协同规律或者基于内容推荐非常成熟的算法，在算法之上如何获得更好的效果，我们会利用最前沿的深度学习推荐算法的技术。推荐系统的效果往往取决于算法的好坏。

除了传统的像 CF这种算法之外，我们也尝试了非常多深度学习层面的算法，像Wide&Deep这个算法就是一个例子，Wide&Deep是我们尝试的一种算法。

这张PPT讲的是Wide&Deep网络结构，左边是一个Wide模型，Wide模型它一般常用LR，它非常高效，可以对非常大的维度的输入进行非常高效的学习。这些输入一般是用户点击行为反馈数据。

Wide&Deep模型的Deep是右边这个模型所展示的，它是个多层的神经网络，多层神经网络可以对原始特征进行学习，学习出一些人工特征所无法抽象出来的一部分特征。通过联合训练，将Wide模型的输出和Deep神经网络的输出结合起来，获得更好的效果。

在实践中，Wide模型一般是用户反馈这种，通过LR这种非常高效的方法，把用户反馈实时的体现到推荐结果上。而Deep模型一般是用来训练像Item这种数据，可以通过离线的方法，使用非常长的时间，训练出一个更好的效果出来。Wide&Deep的优势是把实时反馈和对文章的深层理解结合起来，从而获得更好的效果。

在Wide&Deep之外，我们也尝试了神经网络协同过滤，神经网络协同过滤是在协同过滤的基础上、使用神经网络的方法来实现更好的效果。这是一个神经网络协同过滤的示意图，左下角这个输入是user层面的向量，而右下角这个输入是Item层面的向量，将user向量和Item向量输入到一个多层的神经网络上，可以通过大规模离线训练的方法，来获得一个比较好的协同过滤的效果。

这个网络结构和通常的网络结构非常相似的，一般情况下它是对user和Item通过embedding的方式，这个embedding就跟前面讲的word2vec是一样的，通过embedding把user和Item变成一个稠密编码，然后输入到一个多层的神经网络上。输入就是user、Item之间的分数值，这个网络就是一个简单的回归模型，通过非常多层的神经网络的非线形特性来实现比传统简单CRF的效果会好非常多。

知识图谱是当前非常热门的一个方向。如何把知识图谱和深度学习结合起来应用到推荐系统里面，是我们去做的一个尝试。

这张图可以简单的分成三个部分，左上角这部分是普通的注意力网络结构，它通过将用户所感兴趣的Item跟普通的候选集的Item进行学习，学习出一个权值，这个全值可以用来表示用户对这个新闻感兴趣的程度。左下角这个网络是是将item的内容通过表示学习学习出item的向量表示。右边大图是将左边这两个图学习出来的结果，用类似于前面提到的神经网络协同过滤的方式把它给组合起来，形成了推荐系统里对用户推荐内容候选级的学习过程。通过这种方法，在某种场景下我们可以得到更好的效果。

综合前面这些推荐算法形成的推荐系统，可以非常有效的去做好个性化推荐、相关推荐和热门推荐等各种内容，它可以广泛应用在像资讯推荐，也可以应用到简历推荐上。比如可以在HR发布一个JD的时候，给HR推荐满足这些JD要求的简历。对其他场景也可以使用推荐算法来实现，对于一个案件，可以推荐这个案件相关的其他案件，或者适用于这个案件的一些法律条文。商品推荐则是更常见的内容，它其实也是推荐系统最初使用的一个应用场景。

达观的推荐系统结合前面提到的各种深度学习、自然语言理解和各种各样的算法，来实现一个非常好的推荐效果。除此之外，我们也有非常多行业应用经验，比如招商银行的掌上生活的个性化推荐，使用的就是达观给它们做的私有化部署推荐系统。像澎湃新闻APP，它们的新闻推荐系统是用我们的SaaS服务来实现的。

五、文档智能处理及其应用实践

我们在自然语言理解环节提到，文档的种类是非常丰富的，企业面临的文档也是非常多的，应用场景也是各种各样。比如对财务报表来说，需要的是信息抽取，如何把财务报表变成一个结构化的数据。而对于合同来说它包括两方面的内容，一方面是写合同的时候是否写得符合合同法和企业内部的法务规定；另一方面则是针对审核合同的人，是否放过了一个不符合合同规定的条款，或者，如何去防止合同里面阴阳合同的情况出现。

其他还包括文档的智能搜索，如何去搜一大篇几百页文章里的某些文字，然后把对应的字段给显示出来。应用场景包括，员工刚入职一家公司，需要一个公司手册一样的内容，想理解报销或者请假是怎么去走流程的时候，就要去搜这个文档。如何做到不需要展示给员工整个文档，而是直接给到员工对应的章节，对于企业则是一个能够确实提高员工工作效率的问题。这些问题都是达观所擅长解决的。

除了读、搜、审之外，还有一个场景是更好的利用深度学习和自然语言理解来帮助写文档的人更好更快的写作，比如辅助去写新闻、报告等。

下面，我以场景来做技术层面的解析，比如文本分类.前面提到了非常多深度学习的分类器，还包括一些传统学习的分类器，都可以用来做文本分类。传统学习的优势是在语料比较少的时候，比如JD就是职位描述，这种场景下一般企业的职位描述就是几百个或者几千个，从深度学习的方法去实现，可能效果并不是特别好，这种情况下我们会选择像传统的方法，决策数或者SVM来实现对JD的分类。而对于简历，简历的规模往往JD的100倍以上，这种情况下我们就可以用前面提到的层次注意力模型和金字塔结构的CNN来实现对简历的分类。

除了分类之外，像信息抽取通常使用的是CRF，CRF可以达到一个比较好的效果，它的标注语料要求可能比较低，几百到一两千份就能够实现比较好的效果。当企业有更多语料的时候，我们就可以使用深度学习的方法来实现。前面已经提到过，我们可以把信息抽取转化成分类问题来实现，前面提到的各种分类算法，像金字塔结构的CNN和层叠注意力模型都可以用来做分类。

除此之外，我们在推荐系统环节所提到的像Wide&Deep这种算法，结合LR和深度网络的方法，也可以用来做这个信息抽取的事情。

这个方式说起来也比较简单，可以把CRF当作Wide模型，然后用深度网络Deep模型，用联合训练方法把它们结合起来，这样可以实现类似于迁移学习的效果，就是我们可以预先训练好一个深度网络，然后把深度网络给固化起来。在面对企业没有大量GPU的时候，我们只要重新去训练这个Wide，Wide模型可以使用比较简单的像CRFPP等工具来实现。这种方法可以很好的均衡资源的使用和效果。

除了企业对文档抽取有要求之外，其实文档的智能比对也是一个非常重要的应用场景，这种比对是在文档的信息抽取之上构建的。在信息抽取之上，我们通常使用规则来实现比对这个功能，只要信息抽取的效果足够好，比对效果一般都不会太差。

这是我们实际的一些应用场景，它通过信息抽取技术把关键信息给抽取出来，然后使用各种业务规则对合同进行智能审阅。这种简单的方法就可以达到非常高的效果，可以替企业节省大量的法务人员。单个文档的审阅时间节省得非常多，同时可以让企业节省200个法务的人力。人工智能和文本智能审阅的使用，可以给企业带来非常大的收益，同时可以让这200个人做更有意义的工作。这个是合同审阅的效果图。

六、总结

这是达观使用的架构图，我们可以把输入通过各种特征工程，使用传统的方法来做机器学习，也可以通过Embedding的方式使用各种深度网络来实现，最终会使用一些融合算法，来把不同模型的结果输出做算法融合，最后做些后处理，比如各种业务规则、各种过滤条件、各种在国内特殊国情所不能出现的内容都要过滤掉，得到一个结果出来。

并不仅仅是深度学习效果好就使用它，我们会根据具体的应用场景来选择。如当数据规模小的时候就无法使用深度学习来做。

达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业，获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”，也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术，为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。

理论达观数据王文广深度学习框架自然语言理解文本分析信息抽取推荐系统

6 1

相关技术

文本挖掘知识图谱光学字符识别

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

文本分割技术

文本分割是将书面文本分割成有意义的单位的过程，如单词、句子或主题。这个术语既适用于人类阅读文本时使用的心理过程，也适用于计算机中实现的人工过程，计算机是自然语言处理的主题。这个问题并不简单，因为虽然有些书面语言有明确的词界标记，例如书面英语的单词空间和阿拉伯语独特的最初、中间和最后的字母形状，但这种信号有时是含糊不清的，在所有书面语言中都不存在。

来源：Wikipedia

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

来源：Stanford NLP

协同过滤技术

协同过滤（英语：Collaborative Filtering），简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比（rating）或者群体过滤（social filtering）。其后成为电子商务当中很重要的一环，即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”，也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外，近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据，也许不是百分之百完全准确，但由于加入了强弱的评比让这个概念的应用更为广泛，除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

贝叶斯（信念）网络技术

贝叶斯网络是一种概率图模型（probabilistic graphical model ），其使用有向无环图（directed acyclic graphs, or DAGs）来表示一组随机变量及其n组条件概率分布（conditional probability distributions, or CPDs）。贝叶斯网络使用的有向无环图中的节点代表随机变量，它们可以是可观察到的变量，或潜在变量、未知参数等。连接两个节点的箭头代表此两个随机变数是具有因果关系或是非条件独立的；而两个节点间若没有箭头相互连接一起的情况就称其随机变数彼此间为条件独立。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“父节点（parents）”——可以类比于输入数据，箭头指向的另一个节点是“子节点（descendants or children）”——类比于在输入条件下的输出结果。

来源：Pearl J.(1988). Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

词袋模型技术

词袋模型（英语：Bag-of-words model）是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。

来源：维基百科

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

玻尔兹曼机技术

玻尔兹曼机（Boltzmann machine）是随机神经网络和递归神经网络的一种，由杰弗里·辛顿(Geoffrey Hinton)和特里·谢泽诺斯基(Terry Sejnowski)在1985年发明。玻尔兹曼机可被视作随机过程的，可生成的相应的Hopfield神经网络。它是最早能够学习内部表达，并能表达和（给定充足的时间）解决复杂的组合优化问题的神经网络。但是，没有特定限制连接方式的玻尔兹曼机目前为止并未被证明对机器学习的实际问题有什么用。所以它目前只在理论上显得有趣。然而，由于局部性和训练算法的赫布性质(Hebbian nature)，以及它们和简单物理过程相似的并行性，如果连接方式是受约束的（即受限玻尔兹曼机），学习方式在解决实际问题上将会足够高效。它由玻尔兹曼分布得名。该分布用于玻尔兹曼机的抽样函数。

来源：维基百科

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

特征抽取技术

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

主题模型技术

主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

来源：维基百科

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259