2019/01/24 10:40

NLP需要回归语言本质，走向语义和计算的融合

深度学习推动NLP发展

近几年来，利用统计机器学习方法、端到端的深度学习方法，NLP取得了长足的发展。尤其近三年来，深度学习给 NLP 带来了新的进步，包括 Word2Vec、ELMO、OpenAI GPT、Glove、Fasttext等主流模型也在这一段时间内涌现。最近Google公司AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：在全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩。可预见的是，BERT将为NLP带来里程碑式的改变，也是NLP领域近期最重要的进展。微软亚洲研究院开发的基于神经机器翻译的中英机器翻译系统，在 WMT2017 新闻领域测试数据集上的翻译质量达到了与人类专业翻译质量相媲美的水平。迁移学习等技术的应用，也使得NLP不同任务的训练模型可以迁移、共享，从而提高那些本身缺乏充足训练数据的自然语言处理任务的效果。

NLP需要回归语言本质

毫无疑问，深度学习是NLP有力的工具，在一个个单独的NLP任务中，深度学习表现优异。但同时，深度学习也有局限性，试图把所有的NLP任务当做端到端的序列学习，学习的过程是个黑盒子，很难用语言学知识进行解释。以机器阅读理解为例，其理解的过程是把潜在的答案和用户问题当做一个序列，与原始文本中的序列，进行匹配，将匹配度高的潜在答案作为结果输出，这个过程无法生成一个与阅读文本意思相关的答案，也无法给出其“中心思想”，就像小学考试中经常做的那样。提到“中心思想”，NLP研究者会说，这是另外一个任务--自动摘要，与回答问题不是一个任务，需要用到不同的算法和模型，进行不同的数据标注和训练。但是，从语言学的角度来说，它们都是对同一文本的理解，应该建立在某种共同的基础之上。这种基础应该与我们对语言的认识是符合的，也就是运用了语言的特征，符合语言的结构。

语言知识是NLP的“定海神针”，语言知识可以为算法提供基础的特征，可以为算法提供基本的数据资源，可以验证算法的合理性。最重要的是，只有充分利用语言知识，才能获得NLP的可解释性。

01 需要重视基本的语言特征

深度学习大神Yoshua Bengio最近提到：“当我说小猫时，它不仅仅是一个抽象的概念，我脑海会有猫的图像，我能想起猫跳到腿上后的感觉。所有这些感受是不容易用语言形容的。但这些感受是我说话时随之而来的，所有这些对于理解句子来说是非常重要的。单纯的字符是无法体现这些感受，这些问题还没有得到解决，BERT 也没有解决这个问题，而且只针对文字的训练是不能解决这些问题的。”

显然，语言的特征是抽象的，它不仅仅是我们看到的一个个字或词的形式（字形或词形），而应该是一个词语所表达的全部内涵和外延。

专业用户独享

本文为机器之心深度精选内容，专业认证后即可阅读全文

开启专业认证

登录后开启专业认证去登录

理论NLP深度学习

相关技术

自然语言处理 Embodied AI

微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立，是微软公司在亚太地区设立的基础及应用研究机构，也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究，致力于推动计算机科学前沿发展，着眼下一代革命性技术的创新，助力微软实现长远发展战略。

http://www.msra.cn

相关技术

链式法则深度残差网络 Infographic 降采样

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型，该预训练模型能高效抽取文本信息并应用于各种NLP任务，并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征，其中“双向”表示模型在处理某一个词时，它能同时利用前面的词和后面的词两部分信息。

来源：arXiv论文

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域，涉及计算机科学、心理学和认知科学（cognitive science)。在计算机领域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态，并且适应它们的行为，对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

来源：Wikipedia

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

自动摘要技术

自动摘要是指给出一段文本，我们从中提取出要点，然后再形成一个短的概括性的文本。

来源：机器之心

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

知乎机构

知乎，中文互联网综合性内容平台，自 2010 年成立以来，知乎凭借认真、专业、友善的社区氛围，独特的产品机制，以及结构化、易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类，在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区，构建了人、内容之间的多元连接，提升了社区的运转效率和用户体验。知乎通过内容生产、分发，社区治理等领域的AI应用，也创造了独有的技术优势和社区AI创新样本。

zhihu.com

相关技术

深度学习机器学习推荐系统自然语言处理