2019/01/22 13:37

Sebastian Ruder作者张倩王淑婷编译

现有模型还「不懂」自然语言：20多位研究者谈NLP四大开放性问题

在由 DeepMind 主办的 Deep Learning Indaba 2018 深度学习峰会上，20 多名 NLP 领域的研究者接受采访，就 NLP 的研究现状、当前困境和未来走向等问题发表了自己的见解。很多研究者指出：自然语言理解才是当前 NLP 发展的最大问题。

采访实录：https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit

Deep Learning Indaba 2018 是由 DeepMind 主办的深度学习峰会，于今年 9 月份在南非斯泰伦博斯举行。会上，AYLIEN 研究科学家 Sebastian Ruder、DeepMind 高级研究科学家 Stephan Gouws 和斯泰伦博斯大学讲师 Herman Kamper 组织了自然语言处理前沿会议（Frontiers of Natural Language Processing session），采访了 20 多名 NLP 领域的研究者。不久前，Sebastian Ruder 公布了这次采访的谈话实录和大会演讲的 PPT，对整个采访进行了总结。本文基于当时的专家采访和专题讨论写成，主要探讨 NLP 领域中的 4 个主要开放性问题：

自然语言理解
低资源语言 NLP
大型文档或多文档的推理
数据集、问题和评估

自然语言理解

我认为最大的开放性问题是关于自然语言理解的。我们应该通过构建文本表征，开发出能像人类一样阅读和理解文本的系统。在那之前，我们所有的进步都只是在提升系统模式匹配的能力。
——Kevin Gimpel

在专家采访中，很多专家认为自然语言理解（NLU）问题是最核心的，因为它是很多任务的先决条件（如自然语言生成）。他们认为目前的模型都还没有「真正」理解自然语言。

固有偏置 vs 从头学习

一个关键的问题是我们应该在模型中加入哪些偏置项和结构才能更加接近自然语言理解。很多专家在采访中提到模型应该学习常识。此外，他们也多次提到对话系统（和聊天机器人）。

另一方面，关于强化学习，David Silver 认为我们最终会想要让模型自学一切，包括算法、特征和预测。很多专家持相反观点，认为应该在模型中嵌入理解模块。

程序合成

Omoju Miller 认为在模型中嵌入理解模块非常难，我们不知道 NLU 背后的机制以及如何评估它们。她认为我们或许可以从程序合成中获取灵感，基于高级规范自动学习程序。此类想法与神经模块网络和神经编程器-解释器（neural programmer-interpreter）有关。

她还建议我们应该回顾上世纪八九十年代开发的方法和框架（如 FrameNet），并将它们与统计方法结合起来。这应该会有助于我们推断对象的常识属性，如汽车是否是交通工具、汽车是否有把手等。推断此类常识知识是近期 NLP 数据集的重点。

具身学习（Embodied learning）

Stephan Gouws 认为我们应该使用结构化的数据源和知识库（如 Wikidata）中的信息。他认为人类通过经验和互动，将周围环境作用于身体来学习语言。有人可能认为存在一种学习算法，在具备适当奖励结构的信息丰富的环境中，该算法用于智能体时可以从头学习 NLU。但是，此类环境的计算量是巨大的。AlphaGo 需要巨大的基础设施才能解决定义完善的棋盘游戏。持续学习的通用算法的创建与终身学习和通用问题求解器有关。

很多人认为既然我们在朝着具身学习的方向前进，我们就不应该低估完全具身智能体所需的基础设施和算力。因此，等待合格的具身智能体学习语言似乎是天方夜谭。但是，我们可以逐渐接近这个终点，如在模拟环境中的 grounded 语言学习、利用多模态数据学习等。

情感

Omoju 认为将人类情感等因素融入具身智能体是很困难的。一方面，理解情感需要对语言有更深层的理解。另一方面，我们可能不需要真正具备人类情感的智能体。Stephan 表示图灵测试被定义为模仿性和反社会的，尽管没有情感，却可以欺骗人类，使人们认为它有情感。因此我们应该尝试找到无需具身和具备情感的解决方案，但它们又能理解人类情感、帮助人类解决问题。确实，基于传感器的情感识别系统在不断改进，文本情感检测系统也有很大进步。

认知和神经科学

会上有观众提问，我们构建模型时利用了多少神经科学和认知科学知识。神经科学和认知科学知识是灵感的重要来源，可用作塑造思维的指南。举例来说，多个模型试图模仿人类的思维能力。AI 和神经科学是互补的。

Omoju 推荐大家从认知科学理论中获取灵感，如 Piaget 和 Vygotsky 的认知发展理论。她还敦促大家进行跨学科研究，这引起了其他专家的共鸣。例如，Felix Hill 推荐大家参加认知科学会议。

低资源场景下的 NLP

应对数据较少的场景（低资源语言、方言等）不是一个完全「空白」的问题，因为该领域已经有了很多颇有前景的思路，但我们还没找到一个解决这类问题的普适方案。
——Karen Livescu

我们探索的第二个主题是在低资源场景下泛化至训练数据之外的领域。在 Indaba 的场景下，一个自然的关注点就是低资源语言。第一个问题聚焦于是否有必要为特定的语言开发专门的 NLP 工具，还是说进行通用 NLP 研究已经足够了。

通用语言模型

Bernardt 认为，语言之间存在着普遍的共性，可以通过一种通用语言模型加以利用。那么挑战就在于如何获取足够的数据和算力来训练这样一个语言模型。这与最近的训练跨语言 Transformer 语言模型和跨语言句子嵌入的研究密切相关。

跨语言表征

Stephan 表示，研究低资源语言的学者还不够充足。光是非洲就有 1250-2100 种语言，大部分没有受到 NLP 社区的关注。是否开发专用工具也取决于待处理的 NLP 任务类型。现有模型的主要问题在于其样本效率。跨语言词嵌入对样本的利用非常高效，因为它们只需要词的翻译对，甚至只用单语数据也可以。它们可以很好地对齐词嵌入空间，以完成主题分类等粗粒度任务，但无法完成机器翻译等细粒度任务。然而，最近的研究表明，这些嵌入可以为无监督机器学习创建重要的构建块。

另一方面，应对问答等高级任务的复杂模型需要学习数以千计的训练样本。将需要实际自然语言理解的任务从高资源语言转移到低资源语言仍然非常具有挑战性。随着此类任务的跨语言数据集（如 XNLI）的发展，开发用于更多推理任务的强大跨语言模型应该会变得更容易。

收益与影响

资源不足的语言本质上只有少量的文本可用，在这种情况下 NLP 的优势是否会被限制也是一个问题。Stephan 表现出了强烈的不同意见，他提醒我们，作为 ML 和 NLP 的从业者，我们往往倾向于用信息论的方式看问题，如最大化数据的可能性或改进基准。退一步讲，我们研究 NLP 问题的真实原因是构建克服壁垒的系统。我们想构建一些模型，让人们可以浏览非母语的新闻、在无法看医生的情况下询问健康问题……

考虑到这些潜在的影响，构建低资源语言系统实际上是最重要的研究领域之一。低资源语言可能没有太多数据，但这种语言非常多。事实上，大多数人说的都是一种资源贫乏的语言。因此，我们确实需要找到让系统在这种设定下运行的方法。

Jade 认为，我们这个社区聚焦于拥有大量数据的语言，因为这些语言在全世界都有良好的教育，这似乎有点讽刺。真正需要我们关注的是那些没有太多可用数据的低资源语言。Indaba 的精妙之处在于，里面的人正在推进这种低资源语言的研究，并取得了一些进展。考虑到数据的稀缺性，即使像词袋这种简单的系统也能对现实世界产生重大影响。听众 Etienne Barnard 指出，他观察到了现实世界中语音处理的一种不同效果：与使用母语系统相比，如果英语系统适用于用户的方言，他们往往更有动力使用英语系统。

动机和技能

另一位听众说，人们更有动机去做有高度可视化基准的工作，如英德机器翻译，但在低资源的语言方面缺乏动机。Stephan 认为，动机就是该问题还未解决。然而，正确的人口统计资料中没有解决这些问题所需的技能。我们应该专注于教授机器翻译等类似技能，以帮助大家获取解决这些问题的能力。然而，如果跨语言基准测试变得更加普遍，低资源语言领域也将取得更多进展。

数据可及性

Jade 最后提到，低资源语言（如非洲的一些语言）缺乏可用的数据集是一大问题。如果我们创造数据集并使其非常容易获得（如将其放在 openAFRICA 上），这将极大地激励大家并降低入门门槛。提供多种语言的测试数据通常就足够了，因为这可以帮助我们评估跨语言模型并跟踪进度。另一个数据资源是 South African Centre for Digital Language Resources（SADiLaR），该资源包含很多南非语种。

对大型文本和多个文本进行推理

高效表征大型文本。现有模型主要基于循环神经网络，该网络无法良好地表征较长的文本。受图启发的 RNN 工作流程具有发展潜力，因为它们比普通的 RNN 要更加容易训练，尽管目前只看到了有限的改进，而且还没有被广泛采用。
——Isabelle Augenstein

对大型文本和多个文本进行推理也是一个较大的开放性问题。最近的 NarrativeQA 数据集是符合这一背景的一个很好的基准示例。使用很大的语境进行推理与 NLU 紧密相关，需要大幅度扩展现有系统，使其可以阅读整本书或整个电影剧本。这里有一个关键问题：我们需要训练更好的模型还是仅仅在更多数据上训练？此处不展开讨论。

OpenAI Five 等研究表明，如果大幅增加数据量和计算量，现有模型可以完成的任务将非常可观。有了足够的数据，现有模型在更大的语境中也能表现出很好的性能。问题在于，有大量文本的数据非常少见，获取成本也非常昂贵。与语言建模和 skip-thoughts 类似，我们可以想象一个文件级别的无监督任务，要求预测一本书的下一个段落或下一个章节，或者决定下一章应该是哪一章。然而，这个目标很可能太简单——效率低下，无法学习有用的表征。

开发能够在阅读文件时更加高效地表征语境并追踪相关信息的方法似乎是一个更加实用的方向。多文件摘要和多文件问答与这一研究方向一致。类似地，我们可以利用提高后的内存能力和终身学习能力来构建模型。

数据集、问题和评估

或许最大的问题是如何定义问题本身。正确定义问题指的是构建数据集和评估步骤来恰当地衡量我们在具体目标上的进展。如果能将所有问题都简化为 Kaggle 风格的竞赛，事情就简单多了！
——Mikel Artetxe

本文没有空余篇幅讨论当前基准测试和评估设置的问题，相关回答可以参考调查结果。最后一个问题是，非洲社会最亟待解决的 NLP 问题是什么。Jade 给出的答案是资源不足问题。让人们借助翻译用自己的语言接触所有感兴趣的教育资源是非常重要的一件事情。

原文链接：http://ruder.io/4-biggest-open-problems-in-nlp/

理论自然语言处理DeepMindSebastian Ruder

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

模式匹配技术

在计算机科学中，模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。与模式识别相比，匹配通常必须是精确的。模式通常具有序列或树结构的形式。模式匹配的使用包括输出令牌序列内的模式的位置（如果有的话），输出匹配模式的某个分量，以及用另一个令牌序列（即搜索和替换）替换匹配模式。

来源：Wikipedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

图灵测试技术

图灵测试（英语：Turing test，又译图灵试验）是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道，例如计算机键盘和屏幕，这样的结果是不依赖于计算机把单词转换为音频的能力。

来源：维基百科

语音处理技术

语音处理（Speech processing），又称语音信号处理、人声处理，其目的是希望做出想要的信号，进一步做语音辨识，应用到手机界面甚至一般生活中，使人与电脑能进行沟通。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

信息论技术

信息论是在信息可以量度的基础上，研究有效地和可靠地传递信息的科学，它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论，又因为它的创始人是香农，故又称为香农信息论。

来源：曹雪虹等信息论与编码(第2版) 清华大学出版社

自然语言生成技术

自然语言生成（NLG）是自然语言处理的一部分，从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时，心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式，因为自然语言多样的表达。NLG出现已久，但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向：自然语言理解系统须要厘清输入句的意涵，从而产生机器表述语言；自然语言生成系统须要决定如何把概念转化成语言。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科