自然语言处理顶级会议 ACL 2020 已于 7 月 10 日圆满落幕。受到疫情的影响,今年的 ACL 是线上举办的。尽管缺少面对面交流的机会,参会者却获得了在有限的时间内观看更多演讲和参加更多活动的机会。
本文将分享作者 Vered Shwartz 的 ACL 笔记以及对整体趋势的一些讨论。当然,本文不会对 ACL 进行详尽的介绍,内容的选择也是完全基于作者本人的兴趣。在开始讨论演讲中的趋势之前,先来看看 ACL 博客公布的整体统计情况。今年,论文投递数量最高的类别排名是:用于 NLP 的机器学习、对话和交互系统、机器翻译、信息抽取、NLP 应用、生成。对比前几年情况如何?下面这个来自 Wanxiang Che 的动图生动地展示了自 2010 年来每个类别的变化情况。图源:https://public.flourish.studio/visualisation/2431551/整体而言,趋势是从低级任务向高级任务转变,即从词级的句法、句子级的语法、话语到对话。「机器学习」类别稳定增长,这从越来越多基于多任务评估的通用模型论文可以看出。首先,观察到一点「我在 X 任务上对 BERT 模型进行了微调,从而在基准 Y 上实现了性能提升」的论文越来越少了NLP 研究有一个循环往复的模式:(1)引入新的架构 / 模型,(2)通过改进架构 / 模型或将其应用于不同任务而发表容易取得的成果,(3)发表展现其缺点的分析论文,(4)发布新的数据集。可以说我们目前处于 2 到 3 之间,不过同时其它情况也有发生。再次重申,本文的结论基于作者个人的兴趣,因此很大程度上会滤掉这类论文。因此可以得出一个更温和一点的结论:「ACL 2020 有足够多的论文不属于此类别。」过去两年间,可以看到研究趋势正转向在无标注文本上以自监督方式进行预训练,然后使用(潜在的)更小的特定于任务的数据集进行微调。本届会议上,很多论文研究如何在训练模型时使用更少的监督。这里有一些不是在大数据集上训练的方法及论文例子:无监督:Yadav et al. 提出了一种基于检索的问答方法,该方法可以迭代式地基于一个数据库来优化查询,从而检索用于回答特定问题的证据。Tamborrino et al. 通过使用一种掩码式语言模型为每个候选答案计算一个可信度分数,在常识多选题任务上得到了出色的结果。数据增强:Fabbri et al. 提出了一种用于自动化生成用于训练问答模型的 (上下文,问题,答案)三元组的方法。他们检索了与原始数据集中的上下文类似的上下文,然后生成 yes/no 以及模板化的 WH 问题(即 what/when/where/who 等),之后再在合成的三元组上训练模型。Jacob Andreas 提出使用在相似上下文中更常见的短语来替代罕见短语,从而提升神经网络的组成泛化性能。元学习:Yu et al. 使用了元学习来将用于上下文检测的知识从高资源语言迁移到低资源语言。主动学习:Li et al. 为共指消解任务开发一种高效的标注框架,其可通过主动学习来选择最有价值的样本进行标注。我们已经知道语言模型的知识既匮乏又不准确。本届会议中,来自 Kassner and Schütze 与 Allyson Ettinger 的论文表明语言模型对否定不敏感,因此很容易因错误指定的探针或相关但不准确的答案造成混淆。当前正被采用的多种不同方案:检索:Repl4NLP 研讨会上的两个受邀演讲提到了检索式增强的语言模型。Kristina Toutanova 谈到了谷歌的 REALM 以及使用有关实体的知识来增强语言模型。Mike Lewis 谈到了最近邻语言模型,其可以改善对事实知识的预测结果;另外他还谈到了 Facebook 的 RAG 模型,其将一个生成器和一个检索组件组合到了一起。使用外部知识库:这已经是多年来的常见做法了。Guan et al. 使用来自常识知识库的知识增强了 GPT-2 模型处理常识任务的能力。Wu et al. 使用了这样的知识库来进行对话生成。让语言模型具备新能力:Zhou et al. 训练一个语言模型来获取时间知识(比如时间的频率和持续时间),其使用了通过模式和 SRL 的信息提取得到的训练实例。Geva and Gupta 将数值技巧注入到了 BERT 中,其做法是在生成的数值数据上对其进行微调,而这些数据是使用模板和需要数值推理的文本数据生成的。检查注意力权重今年看起来已经不流行了,取而代之的关注重点是生成文本依据,尤其是那些能够反映判别模型决策的依据。Kumar 和 Talukdar 提出了一种为自然语言推断(NLI)预测忠实解释的方法,其方法是为每个标签预测候选解释,然后使用它们来预测标签。Jain et al. 开发了一种忠实的解释模型,其依赖于事后归因(post-hoc)的解释方法(这并不一定忠实)和启发式方法来生成训练数据。为了评估解释模型,Hase 和 Bansa 提出通过测量用户的能力,在有或没有给定解释的前提下来预测模型的行为。ACL 今年有一个主题类别,其主题为「Taking Stock of Where We’ve Been and Where We’re Going(通观现状与展望未来)」,其中有一些发人深省的论文。其它类别的受邀演讲嘉宾和论文也带来了一些见解。如下:我们求解的是数据集,而非任务。过去几年人们不断提到这样的话,但即便如此,我们的主要范式还是训练大型模型并在众包的测试集上评估它们,而且这个测试集往往与训练集非常近似。来自 Tal Linzen 的荣誉提名主题论文认为我们用大量数据学习的模型在面对人类可以获得的数据量时,可能学不到任何东西,而这些模型在数据中找到的统计学模式可能在人类看来根本无关紧要。他建议说未来我们应该标准化大小适中的预训练语料库,使用专家创建的评估集以及奖励成功的少量次学习。Kathy McKeown 的主题演讲也提到了这一点,并补充说,排行榜并不总是能帮助该领域的发展。基准通常只体现了分布的头部,但我们还需要看到分布的尾部。此外,分析通用模型(比如语言模型)在具体任务上的进展是很困难的。Bonnie Webber 在她的终身成就奖访谈中强调,我们需要检查数据和分析模型错误。即便只是简单地看看精度和召回率,而不仅仅是聚合 F1 分数,就能帮助我们理解模型的弱点和优势。当前的模型和数据存在固有的局限性。Bonnie 还说虽然神经网络能够解决不需要深度理解的任务,但更具挑战性的目标是识别隐含的含义和世界知识。除了上面提到的论文,还有一些论文也提到了当前模型的局限性。举个例子,Yanaka et al. 和 Goodwin et al. 都指出神经自然语言理解模型缺乏系统性,几乎不能泛化已学习到的语义现象。Emily Bender 和 Alexander Koller 的最佳主题论文认为仅从形式学习含义是不可能的。Bisk et al. 的预印本论文给出了类似的断言,其提倡使用多模态数据来学习含义。我们需要远离分类任务。我们已经看到在过去几年,分类和多项选择任务容易研究的证据,模型可通过学习浅度的特定于数据的模式来实现优良的准确度。另一方面,生成任务却难以评估。目前仅有人类评估能提供有信息的指标,但人类评估的成本很高。作为对分类任务的替代,Chen et al. 将自然语言推断(NLI)任务从三类分类转换成了一种概率任务,其目标是回答这样的问题:「给定前提下一个假设为真的概率是多少?」Pavlick and Kwiatkowski 进一步表明,即便人类不同意某些句子对的蕴涵标签,在某些情况下,不同的解读也能为不同的标签提供合理性(而对标签进行平均化处理则可能导致错误)。我们需要学会应对歧义和不确定性。Ellie Pavlick 在 Repl4NLP 的演讲探讨了在清晰定义语义研究中的目标方面的困难。简单地将语义理论翻译成 NLI 风格的任务注定要失败,因为语言位于且植根于更广阔的语境之中。Guy Emerson 定义了分布的语义所需的性质,其中之一是学习不确定性。Feng et al. 设计了一种对话响应任务和包含一个「none of the above(以上皆不对)」回应的模型。最后,Trott et al. 指出尽管语义任务可用于识别两个具有同样含义的表达,但也可用于识别表述上的差异会如何影响含义。ACL 在道德伦理方面的进步是非常显著的。前几年,NLP 中道德伦理还少有人研究,但如今却已然是 ACL 的一大类别,而且我们所有人在提交其它类别的论文时也都会考虑伦理道德。事实上,我们这个社区现在开始转向批评那些探讨重要的公平性问题而同时又未能解决其它道德伦理考虑的论文。我强烈推荐观看 Rachael Tatman 在 WiNLP 研讨会上洞见深入的主题演讲「What I Won’t Build(我不会构建的东西)」。Rachael 说明了她个人不会参与构建的那几类系统,包括监控系统、欺骗与其交互的用户的系统、社会类别监测系统。她提供了一个问题列表,研究者可用来决定是否应该构建某个系统:该系统将让哪些人获益?
该系统对哪些人有害?
用户可以选择退出吗?
该系统会强化还是弱化系统的不公平性?
该系统总体上会让世界变得更好吗?
Leins et al. 提出了许多有趣但仍待解答的道德伦理问题,比如符合道德伦理的 NLP 研究是怎样的,这应该由谁、通过什么方式决定?模型的预测结果应该由谁负责?ACL 应该尝试将自己定位为道德卫士吗?这篇论文讨论的问题之一是模型的双重使用问题:一个模型既可以用于好的目的,也可以用于坏的目的。事实上,会议期间,针对 Li et al. 的最佳演示论文发生了一场 Twitter 争论(很不幸该争论由一个匿名账号主导)。该论文提出了一个出色的多媒体知识提取系统。Cocos and Callison-Burch 创建了一个大规模的标注了含义的句子资源,其中的含义是通过同等含义的词进行标注的,比如 bug-microphone 中 bug 是个多义词,这里使用 microphone 进行标注,就固定了其小型麦克风 / 窃听器的含义,而非虫子的含义。Zhang et al. 提出了一种用于跟踪文本出处的方法,包括其作者和其它来源的影响。Chakrabarty et al. 解决了将带讽刺的句子转译为不带讽刺句子的问题,他还基于对讽刺的极富洞见的观察而构建了一个模型。Wolfson et al. 将问题理解引入为一个单独的任务,其按照人类的方式通过将复杂问题分解为更简单的问题来进行解答。Gonen et al. 提出了一种用于测量词义变化的非常直观和可解释的方法,其具体做法为检查词分布的最近邻。Anastasopoulos and Neubig 表明尽管使用英语作为中心语言来进行跨语言嵌入学习是最佳实践,但却往往是次优的;该论文提议了一些用于选择更优中心语言的一般原则。最后,Zhang et al. 众包了 Winograd 模式挑战赛的解释,并分析了解决该任务所需的知识类型以及现有模型在每种类别上的成功程度。这些论文和主题演讲给作者带来了一种感觉,即过去几年该领域虽然取得了重大进展,但我们尚未走上正确的方向,我们也没有非常可行的前进之路。作者认为,主题类别的变化具有正面意义,这能鼓励研究者不执着于容易取得的小进步,而是着眼大局。虽然虚拟会议总有不便之处,但作者希望疫情过后会议回到真人模式时也允许人们以更低的注册费用远程参会。希望明年能真正见到你们!原文链接:https://medium.com/@vered1986/highlights-of-acl-2020-4ef9f27a4f0c