在由 DeepMind 主办的 Deep Learning Indaba 2018 深度学习峰会上,20 多名 NLP 领域的研究者接受采访,就 NLP 的研究现状、当前困境和未来走向等问题发表了自己的见解。很多研究者指出:自然语言理解才是当前 NLP 发展的最大问题。
采访实录:https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit
Deep Learning Indaba 2018 是由 DeepMind 主办的深度学习峰会,于今年 9 月份在南非斯泰伦博斯举行。会上,AYLIEN 研究科学家 Sebastian Ruder、DeepMind 高级研究科学家 Stephan Gouws 和斯泰伦博斯大学讲师 Herman Kamper 组织了自然语言处理前沿会议(Frontiers of Natural Language Processing session),采访了 20 多名 NLP 领域的研究者。不久前,Sebastian Ruder 公布了这次采访的谈话实录和大会演讲的 PPT,对整个采访进行了总结。本文基于当时的专家采访和专题讨论写成,主要探讨 NLP 领域中的 4 个主要开放性问题:
自然语言理解
低资源语言 NLP
大型文档或多文档的推理
数据集、问题和评估
自然语言理解
我认为最大的开放性问题是关于自然语言理解的。我们应该通过构建文本表征,开发出能像人类一样阅读和理解文本的系统。在那之前,我们所有的进步都只是在提升系统模式匹配的能力。
——Kevin Gimpel
在专家采访中,很多专家认为自然语言理解(NLU)问题是最核心的,因为它是很多任务的先决条件(如自然语言生成)。他们认为目前的模型都还没有「真正」理解自然语言。
固有偏置 vs 从头学习
一个关键的问题是我们应该在模型中加入哪些偏置项和结构才能更加接近自然语言理解。很多专家在采访中提到模型应该学习常识。此外,他们也多次提到对话系统(和聊天机器人)。
另一方面,关于强化学习,David Silver 认为我们最终会想要让模型自学一切,包括算法、特征和预测。很多专家持相反观点,认为应该在模型中嵌入理解模块。
程序合成
Omoju Miller 认为在模型中嵌入理解模块非常难,我们不知道 NLU 背后的机制以及如何评估它们。她认为我们或许可以从程序合成中获取灵感,基于高级规范自动学习程序。此类想法与神经模块网络和神经编程器-解释器(neural programmer-interpreter)有关。
她还建议我们应该回顾上世纪八九十年代开发的方法和框架(如 FrameNet),并将它们与统计方法结合起来。这应该会有助于我们推断对象的常识属性,如汽车是否是交通工具、汽车是否有把手等。推断此类常识知识是近期 NLP 数据集的重点。
具身学习(Embodied learning)
Stephan Gouws 认为我们应该使用结构化的数据源和知识库(如 Wikidata)中的信息。他认为人类通过经验和互动,将周围环境作用于身体来学习语言。有人可能认为存在一种学习算法,在具备适当奖励结构的信息丰富的环境中,该算法用于智能体时可以从头学习 NLU。但是,此类环境的计算量是巨大的。AlphaGo 需要巨大的基础设施才能解决定义完善的棋盘游戏。持续学习的通用算法的创建与终身学习和通用问题求解器有关。
很多人认为既然我们在朝着具身学习的方向前进,我们就不应该低估完全具身智能体所需的基础设施和算力。因此,等待合格的具身智能体学习语言似乎是天方夜谭。但是,我们可以逐渐接近这个终点,如在模拟环境中的 grounded 语言学习、利用多模态数据学习等。
情感
Omoju 认为将人类情感等因素融入具身智能体是很困难的。一方面,理解情感需要对语言有更深层的理解。另一方面,我们可能不需要真正具备人类情感的智能体。Stephan 表示图灵测试被定义为模仿性和反社会的,尽管没有情感,却可以欺骗人类,使人们认为它有情感。因此我们应该尝试找到无需具身和具备情感的解决方案,但它们又能理解人类情感、帮助人类解决问题。确实,基于传感器的情感识别系统在不断改进,文本情感检测系统也有很大进步。
认知和神经科学
会上有观众提问,我们构建模型时利用了多少神经科学和认知科学知识。神经科学和认知科学知识是灵感的重要来源,可用作塑造思维的指南。举例来说,多个模型试图模仿人类的思维能力。AI 和神经科学是互补的。
Omoju 推荐大家从认知科学理论中获取灵感,如 Piaget 和 Vygotsky 的认知发展理论。她还敦促大家进行跨学科研究,这引起了其他专家的共鸣。例如,Felix Hill 推荐大家参加认知科学会议。
低资源场景下的 NLP
应对数据较少的场景(低资源语言、方言等)不是一个完全「空白」的问题,因为该领域已经有了很多颇有前景的思路,但我们还没找到一个解决这类问题的普适方案。
——Karen Livescu
我们探索的第二个主题是在低资源场景下泛化至训练数据之外的领域。在 Indaba 的场景下,一个自然的关注点就是低资源语言。第一个问题聚焦于是否有必要为特定的语言开发专门的 NLP 工具,还是说进行通用 NLP 研究已经足够了。
通用语言模型
Bernardt 认为,语言之间存在着普遍的共性,可以通过一种通用语言模型加以利用。那么挑战就在于如何获取足够的数据和算力来训练这样一个语言模型。这与最近的训练跨语言 Transformer 语言模型和跨语言句子嵌入的研究密切相关。
跨语言表征
Stephan 表示,研究低资源语言的学者还不够充足。光是非洲就有 1250-2100 种语言,大部分没有受到 NLP 社区的关注。是否开发专用工具也取决于待处理的 NLP 任务类型。现有模型的主要问题在于其样本效率。跨语言词嵌入对样本的利用非常高效,因为它们只需要词的翻译对,甚至只用单语数据也可以。它们可以很好地对齐词嵌入空间,以完成主题分类等粗粒度任务,但无法完成机器翻译等细粒度任务。然而,最近的研究表明,这些嵌入可以为无监督机器学习创建重要的构建块。
另一方面,应对问答等高级任务的复杂模型需要学习数以千计的训练样本。将需要实际自然语言理解的任务从高资源语言转移到低资源语言仍然非常具有挑战性。随着此类任务的跨语言数据集(如 XNLI)的发展,开发用于更多推理任务的强大跨语言模型应该会变得更容易。
收益与影响
资源不足的语言本质上只有少量的文本可用,在这种情况下 NLP 的优势是否会被限制也是一个问题。Stephan 表现出了强烈的不同意见,他提醒我们,作为 ML 和 NLP 的从业者,我们往往倾向于用信息论的方式看问题,如最大化数据的可能性或改进基准。退一步讲,我们研究 NLP 问题的真实原因是构建克服壁垒的系统。我们想构建一些模型,让人们可以浏览非母语的新闻、在无法看医生的情况下询问健康问题……
考虑到这些潜在的影响,构建低资源语言系统实际上是最重要的研究领域之一。低资源语言可能没有太多数据,但这种语言非常多。事实上,大多数人说的都是一种资源贫乏的语言。因此,我们确实需要找到让系统在这种设定下运行的方法。
Jade 认为,我们这个社区聚焦于拥有大量数据的语言,因为这些语言在全世界都有良好的教育,这似乎有点讽刺。真正需要我们关注的是那些没有太多可用数据的低资源语言。Indaba 的精妙之处在于,里面的人正在推进这种低资源语言的研究,并取得了一些进展。考虑到数据的稀缺性,即使像词袋这种简单的系统也能对现实世界产生重大影响。听众 Etienne Barnard 指出,他观察到了现实世界中语音处理的一种不同效果:与使用母语系统相比,如果英语系统适用于用户的方言,他们往往更有动力使用英语系统。
动机和技能
另一位听众说,人们更有动机去做有高度可视化基准的工作,如英德机器翻译,但在低资源的语言方面缺乏动机。Stephan 认为,动机就是该问题还未解决。然而,正确的人口统计资料中没有解决这些问题所需的技能。我们应该专注于教授机器翻译等类似技能,以帮助大家获取解决这些问题的能力。然而,如果跨语言基准测试变得更加普遍,低资源语言领域也将取得更多进展。
数据可及性
Jade 最后提到,低资源语言(如非洲的一些语言)缺乏可用的数据集是一大问题。如果我们创造数据集并使其非常容易获得(如将其放在 openAFRICA 上),这将极大地激励大家并降低入门门槛。提供多种语言的测试数据通常就足够了,因为这可以帮助我们评估跨语言模型并跟踪进度。另一个数据资源是 South African Centre for Digital Language Resources(SADiLaR),该资源包含很多南非语种。
对大型文本和多个文本进行推理
高效表征大型文本。现有模型主要基于循环神经网络,该网络无法良好地表征较长的文本。受图启发的 RNN 工作流程具有发展潜力,因为它们比普通的 RNN 要更加容易训练,尽管目前只看到了有限的改进,而且还没有被广泛采用。
——Isabelle Augenstein
对大型文本和多个文本进行推理也是一个较大的开放性问题。最近的 NarrativeQA 数据集是符合这一背景的一个很好的基准示例。使用很大的语境进行推理与 NLU 紧密相关,需要大幅度扩展现有系统,使其可以阅读整本书或整个电影剧本。这里有一个关键问题:我们需要训练更好的模型还是仅仅在更多数据上训练?此处不展开讨论。
OpenAI Five 等研究表明,如果大幅增加数据量和计算量,现有模型可以完成的任务将非常可观。有了足够的数据,现有模型在更大的语境中也能表现出很好的性能。问题在于,有大量文本的数据非常少见,获取成本也非常昂贵。与语言建模和 skip-thoughts 类似,我们可以想象一个文件级别的无监督任务,要求预测一本书的下一个段落或下一个章节,或者决定下一章应该是哪一章。然而,这个目标很可能太简单——效率低下,无法学习有用的表征。
开发能够在阅读文件时更加高效地表征语境并追踪相关信息的方法似乎是一个更加实用的方向。多文件摘要和多文件问答与这一研究方向一致。类似地,我们可以利用提高后的内存能力和终身学习能力来构建模型。
数据集、问题和评估
或许最大的问题是如何定义问题本身。正确定义问题指的是构建数据集和评估步骤来恰当地衡量我们在具体目标上的进展。如果能将所有问题都简化为 Kaggle 风格的竞赛,事情就简单多了!
——Mikel Artetxe
本文没有空余篇幅讨论当前基准测试和评估设置的问题,相关回答可以参考调查结果。最后一个问题是,非洲社会最亟待解决的 NLP 问题是什么。Jade 给出的答案是资源不足问题。让人们借助翻译用自己的语言接触所有感兴趣的教育资源是非常重要的一件事情。