2018/12/12 18:10

魏子敏、蒋宝尚作者

四个问题，Yoshua等27位前沿研究者，这是一份NLP领域的请回答2018

今年9月份，深度学习Indaba2018峰会在南非斯泰伦博斯举办，包括谷歌大脑Jeff Dean在内的一众研究者都到场进行了分享。一位来自Insight数据分析研究中心的博士生Sebastian Ruder在准备自己的分享期间，就四个问题咨询了包括Yoshua Bengio在内的20+位这个领域的前沿研究者。

昨天，Sebastian Ruder在推特上公开了完整的20余份问答实录，以及他对这些答案相关的分享总结。从中可以一窥自然语言处理这一领域近期的发展。

先来看看这四个引入深省的大问题：

1.你认为目前NLP面临最大的三个问题是什么？

What do you think are the three biggest open problems in NLP at the moment?

2.过去十年，你认为对NLP领域影响最深远的研究是什么？

What would you say is the most influential work in NLP in the last decade, if you had to pick just one?

3.如果有的话，是哪些因素让这个领域走向了错误的方向？

What, if anything, has led the field in the wrong direction?

4. 你有什么建议给NLP领域的硕士研究生？

What advice would you give a postgraduate student in NLP starting their project now?

共有20余位来自自然语言处理业界和学界的前沿研究者受邀回答了这些问题。大数据文摘选取了神经网络之父、“花书”作者Yoshua Bengio和芝加哥大学副教授Kevin Gimpel的回答作为代表进行了编译，完整问答实录可在大数据文摘后台留言“20181212”（今天的日期）获取。

大咖列表如下👇

Hal Daumé III，Barbara Plank，Miguel Ballesteros，Anders Søgaard，Manaal Faruqui，Mikel Artetxe，Sebastian Riedel，Isabelle Augenstein，Bernardt Duvenhage，Lea Frermann，Brink van der Merwe，Karen Livescu，Jan Buys，Kevin Gimpel，Christine de Kock，Alta de Waal，Michael Roth，Maletěabisa Molapo，Annie Louise，Chris Dyer，Yoshua Bengio，Felix Hill，Kevin Knight，Richard Socher，George Dahl，Dirk Hovy，Kyunghyun Cho

Yoshua Bengio

1.你认为目前NLP面临最大的三个问题是什么？

基础语言学习，即共同学习世界模型以及如何用自然语言处理中引用模型；
在深度学习框架内融合语言理解和推理；
常识的理解，只有解决了上述两个问题，才能解决常识问题。

2.哪些因素让这个领域走向了错误的方向？

是贪婪。

我们总是在意短期回报，我们总是想办法利用一切我们可支配的数据训练模型，然后希望模型能够智能的理解和生成语言。但是，如果我们不能建立世界模型，不能深层次的理解世界是如何运作的，我们永远不会找到智能语言的秘密，即使我们设计的神经网络模型有多么精巧。因此，我们必须要紧牙关，致力于用NLP解决AI，而不是孤立的理解自然语言处理。

4.你对研究生开始他们的NLP项目有什么建议？

广泛阅读，不要局限于阅读NLP论文。阅读大量机器学习，深度学习，强化学习论文。博士学位是一个人一生中实现追求目标的大好时机，即使是朝着这个目标迈出一小步也是值得珍惜的。

Kevin Gimpel

1.你认为NLP目前最大的三个问题是什么？

最大的问题与自然语言的理解有关，即使在生成任务中，所有的挑战都可以这么理解：计算机不理解文字对人的作用是什么。

设计的模型应该像人类那样阅读和理解文本，通过形成文本世界的表示法，包括对象、设置、目标愿望、信念等要素。当然，还要有人类理解文字背后所需的其他因素。

在设计出理想模型之前，所有的进步都基于提高模型模式匹配的能力。模式匹配对于开发和改善产品是有效的。我不认为仅仅需要模式匹配就能产生一台“理性”机器。

2. 过去十年中，在NLP方面，最有影响力的一部作品是什么？

《自然语言处理几乎从零开始（Natural Language Processing (Almost) from Scratch）》，这一论文由 Ronan Collobert、Jason Weston、Leon Bottou、Michael Karlen、Koray Kavukcuoglu和 Pavel Kuksa等人合力完成，并在2011年发表。简单来说，它以Colobert和Weston在2008年的一篇论文为基础，但对其进行了扩展与发挥。该论文介绍了当前NLP设计常见的几种方法，例如，使用神经网络进行NLP多任务学习、使用未标记数据进行预训练词嵌入等等。

3. 是什么原因导致我们踏进了自然语言处理的“陷阱”

我认为是当前NLP传统的处理方法，例如采用的传统的监督学习，其中有一条假设是，测试数据与训练数据服从相同的概率分布，这与现实实际完全不符合。至少，真实的测试数据与训练数据在时间上的分布是不同的，有时甚至是几十年的差距！所以，我们应该致力于域外学习，时间迁移等。

传统的无监督学习和传统的监督学习都是不现实的，所以很高兴看到NLP研究人员最近关注混合使用，无论给它们起什么名字，半监督也好，弱监督也可，它们都是一种混合的设置。

4. 你对NLP的研究生现在开始他们的项目有什么建议？

不要害怕创新，要勇于尝试新鲜事物。通常来说，风险越大，收益也越大。如果失败了，或者说不符合预期，你也可能在过程中学到许多非常有趣的事情，非常有可能为你发表论文积累材料。

Sebastian Ruder也整理了20余位研究者的回应，并在大会的报告中给出了以下总结。

大数据文摘后台回复“20181212”（今天的日期）获取完整报告PPT。

自然语言处理领域发展的里程碑👇

问题一：NLP研究领域最大的问题

总结25位研究者的回答后，我们得出了这四大问题👇

1、自然语言理解

2、低资源情景下的NLP

3、大规模或多文件推理

4、数据集，问题及评估

问题二：哪些因素让这个领域走向了错误的方向？

问题三：你有什么建议给NLP领域的硕士研究生？

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业自然语言处理

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

模式匹配技术

在计算机科学中，模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。与模式识别相比，匹配通常必须是精确的。模式通常具有序列或树结构的形式。模式匹配的使用包括输出令牌序列内的模式的位置（如果有的话），输出匹配模式的某个分量，以及用另一个令牌序列（即搜索和替换）替换匹配模式。

来源：Wikipedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

多任务学习技术

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心