2019/02/07 20:40

对话清华NLP实验室刘知远：NLP搞事情少不了知识库与图神经网络

在过去的 2018 年中，自然语言处理出现了很多令人激动的新想法与新工具。从概念观点到实战训练，它们为 NLP 注入了新鲜的活力。

在这一年中，清华大学副教授刘知远和他所在的清华自然语言处理实验室同样在这个领域做出了很多成果，他们关注如何结合深度神经网络与大型知识库，并期望构建更多鲁棒及可解释性的自然语言理解系统。在这一篇文章中，机器之心采访了刘知远教授，他向我们介绍了 NLP 在过去一年的重要发展历程，以及实验室的重要研究成果与方向。

从 18 年走进 19 年

机器之心：在过去一年，您认为人工智能或者机器学习领域方面有哪些比较重要的研究成果？

刘知远：我认为去年最有里程碑意义的研究是 BERT，每个从事自然语言处理的研究者和开发者，甚至每个人工智能研究者都会比较关注。它的地位可能和 CV 中的 ResNet 相似，都是充分利用更多数据自动学习预训练模型，改进相关任务的性能。

参考文章：谷歌终于开源 BERT 代码：3 亿参数量，机器之心全面解读

机器之心：Transformer 在 2018 年有了更广泛的应用，除了机器翻译以外，它在语言模型和问答系统也都有所应用。您认为这是不是体现了一种趋势？

刘知远：我们可以把 Transformer 看做是以往神经网络的一个升级版，能够一定程度上解决以往 CNN 和 RNN 对长程依赖建模的问题。并且提出完全利用 Attention 机制来进行句子表示学习，结构也比较清晰，目前在机器翻译任务上取得了大幅提升。

在文本表示方面，深度神经网络主要存在两种做法：一种是 RNN/GRU/LSTM 系列，将句子作为字符序列进行顺序编码处理；另一种如 CNN 就不再关注句子中词之间的序列关系，而是通过诸如 Convolution（卷积）的机制，从局部开始逐渐形成整个句子的表示。前一种做法更符合语言理解特点，而后一种做法则并行计算性能更好。

Transformer 现在有比较大的影响力，一个方面就是其每层都会利用 Attention（注意力）来捕捉全局的信息，能够提升长程依赖的学习能力，这是 CNN 所不具备的。同时 Transformer 能在 GPU 上得到非常好的加速，可以从更多训练数据学习更好的效果，这是 RNN 系列模型难以做到的。此外简单利用自注意力机制可以方便层次化建模，这也是之后深层 Transformer 以及 BERT 等相关模型效果显著的重要因素。

总的来说，Transformer 比较好地解决了 RNN 和 CNN 等传统神经网络模型的缺陷，但更侧重于模型的并行化，对于语言序列性质的考虑还比较简单。当然，我认为未来这两种做法还会有此消彼长的过程。可能再发展一两年，我们又会在 Transformer 中把句子的序列性质着重考虑进来，让性能进一步提高，这也是一个互相借鉴的过程。

机器之心：您在 18 年都有哪些比较重要的研究成果，能介绍一下吗？

刘知远：2018 年我们围绕知识与语言开展了很多工作。我们认识到不同类型知识对语言理解的重要意义，是纯数据驱动方法无法胜任的。所以，我们的总目标是构建知识指导的自然语言处理框架，近年来一直探索如何将世界知识、语言知识和行业知识用于自然语言理解，以及反过来如何利用深度学习技术从无结构文本中抽取各类知识。

2018 年，在世界知识方面，我们进一步探索了利用深度学习技术抽取实体关系的技术，推出了 OpenNRE 工具包，获得了国内外的广泛关注；我们也利用知识表示学习技术，将世界知识用于文本实体分类、信息检索的文本排序等任务，验证了世界知识对于文本理解的积极意义。在语言知识方面，我们进一步探索了如何将用义原标注的词汇知识库 HowNet 融入到深度学习语言模型中；我们也探索了跨语言进行义原知识标注的可行性，有望加速多语言义原标注的效率。在行业知识方面，我们探索了如何将自然语言处理技术与法律知识相结合，提高法律领域的智能化水平。

实际上，从无结构文本中抽取结构化知识形成大规模知识图谱后，这些知识反过来可以融入深度学习模型中，帮助我们更好地实现对自然语言的理解。我认为这是深度学习模型与知识图谱不断互相正反馈的过程：如果有越来越大、越来越精确的知识图谱，也会有越来越好、越来越鲁棒的自然语言理解模型，它们是共同发展的。

专业用户独享

本文为机器之心深度精选内容，专业认证后即可阅读全文

开启专业认证

登录后开启专业认证去登录

入门自然语言处理自然语言理解图神经网络清华人工智能研究院知识工程

8 2

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

刘知远人物

刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位，已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇，Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖，入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任，中文信息学会社会媒体处理专委会委员、秘书，SCI 期刊 Frontiers of Computer Science 青年编委，ACL、COLING、IJCNLP 领域主席。

来源：个人主页

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型，该预训练模型能高效抽取文本信息并应用于各种NLP任务，并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征，其中“双向”表示模型在处理某一个词时，它能同时利用前面的词和后面的词两部分信息。

来源：arXiv论文

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

few shot learning技术

在标注数据量比较少时，试图让算法学习好的特征，并可以泛化这些罕见的类别，而不需要额外的训练。few shot learning包括基于Finetune、基于metric、基于graph neural network、基于元学习meta learning等方向。如果只有一个标注样本，称为one shot learning。

来源：CSDN

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

社会网络分析技术

社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法，近年来，该方法在职业流动、城市化对个体幸福的影响、世界政治和经济体系、国际贸易等领域广泛应用，并发挥了重要作用。社会网络分析是社会学领域比较成熟的分析方法，社会学家们利用它可以比较得心应手地来解释一些社会学问题。许多学科的专家如经济学、管理学等领域的学者们在新经济时代——知识经济时代，面临许多挑战时，开始考虑借鉴其他学科的研究方法，社会网络分析就是其中的一种。

来源：MBA智库

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

神经语言模型技术

语言模型是估计单词序列的联合概率函数，比如给一个长度为m的单词序列，通过使用语言模型，可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用，可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别，机器翻译，语音标记，解析，手写识别，信息检索等领域。

来源：Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of machine learning research, 3(Feb), 1137-1155.Ponte J M, Croft W B. A language modeling approach to information retrieval

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

图网技术

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源：ImageNet 官网

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科