2020/07/01 09:00

引用量 TOP 10 的ACL历届会议「最佳论文」

ACL 会议（Annual Meeting of the Association for Computational Linguistics）是自然语言处理与计算语言学领域最高级别的学术会议，由计算语言学协会主办，每年一届。ACL 会议论文的接受率一直维持在 25% 左右，其中会经过严格的筛选和评审选出本届会议最佳论文，一般只有一篇。人工智能在近 20 年来获得了爆炸式的发展，而作为人工智能领域之一的自然语言处理，在 20 年来受研究人员关注和看好的发展趋势是怎么样的呢？我们对近 20 年来的 ACL 历届最佳论文按引用量给出了 2001-2018 年高被引的 ACL 最佳论文，以管窥一豹自然语言处理领域的发展和变迁。

AMiner 开发的 ACL 2020 论文查询工具：https://www.aminer.cn/conf/acl2020/?s=ar

1 Accurate Unlexicalized Parsing （2003）
精确非词汇化解析 引用:3046
作者：Dan Klein、Christopher D.Manning
机构：斯坦福大学
简介：作者在本文中展示了非词汇化的 PCFG（概率上下文语法无关）能比以往展示的解析的更精确。通过使用简单的、语言学驱动的状态分解，它打破了传统 treebank 语法中潜在的错误独立性假设，其性能达到了 86.36%（LP/LR F PCFG 机型），并且惊人地接近了目前的最新水平。这个结果有潜在的用途，除了建立一个关于非词汇化模型最大可能精度的强下限之外：非词汇化的 PCFG 比更复杂的词汇模型更紧凑、更容易复制、更容易解释，而且解析算法更简单、更广为理解、渐近复杂度更低，更容易优化。
论文地址：https://www.aminer.cn/pub/53e997f1b7602d9701ff4b51/

2 A hierarchical phrase-based model for statistical machine translation（2005）

统计机器翻译基于短语的层次模型 引用:1291
作者：David Chiang
机构：马里兰大学
简介：分层短语对模型，可以学习没有任何语法注释的训练数据，与现有的基于短语的系统相比，显著提高了翻译的准确性。
本文介绍了一个基于统计短语的翻译模型，该模型使用层次短语-包含子短语的短语。该模型在形式上是同步的上下文无关文法，但可从没有任何语法信息的 bitext 中学习。因此，可以将其视为向没有语言学承诺的基于语法的翻译系统形式机器的转变。在作者的实验中，使用 BLEU 作为度量标准，基于分层短语的模型比基于最先进的系统 Pharoah 实现了 7.5％的相对改进。
论文地址:https://www.aminer.cn/pub/53e9a0fbb7602d97029e84fc/

3 Discriminative training and maximum entropy models for statistical machine translation （2002）

统计机器翻译中的差异化训练与最大熵模型 引用:1259
作者：Franz Josef Och、Hermann Ney
机构：亚琛工业大学
简介：作者提出了一个基于直接最大熵模型的自然语言统计机器翻译的框架，其中包含了广泛使用的源-信道方法作为特例。所有知识源都被视为特征函数，它取决于源语言语句、目标语言语句和可能的隐藏变量。这种方法允许通过添加新特征轻松扩展基准机器翻译系统。作者表明使用这种方法可以显着改善基准统计机器翻译系统。
论文地址：https://www.aminer.cn/pub/53e9be72b7602d9704b35ae7/

4 Semantic taxonomy induction from heterogenous evidence（2006）

归纳自异类证据的语义分类学 引用:487
作者：Rion Snow、Daniel Jurafsky、Andrew Y.Ng
机构：斯坦福大学
简介：作者提出了一种新的归纳语义分类法的算法。先前用于分类归纳的算法通常集中于独立的分类器，基于手工构造或自动发现的文本模式来发现新的单一关系。相比之下，本文的算法可以灵活地结合来自异类关系的多个分类器的证据，从而利用单词的坐标项知识来确定其上位词，从而优化分类法的整个结构，反之亦然。作者将此算法应用于消除语义歧义的名词下位词获取的问题，在该问题中，作者将上位词的预测和术语分类器与现有知识分类法（WordNet 2.1）中的知识相结合。以 84％的精度将 10,000 个新的同义词集添加到 WordNet 2.1，与使用相同组件分类器的非联合算法相比，相对误差减少了 70％。最后，文中证明，使用此算法构建的分类法在独立的上位词对测试集上显示出比 WordNet 2.1 相对 F 分数提高了 23％。
论文地址：https://www.aminer.cn/pub/53e9bd9fb7602d9704a4b6e4/

5 Fast and Robust Neural Network Joint Models for Statistical Machine Translation（2014）

统计机器翻译的快速且鲁棒的神经网络联合模型 引用:437
作者：Jacob Devlin,、Rabih Zbib,、Zhongqiang Huang、Thomas Lamar,、Richard Schwartz、John Makhoul
机构：雷神 BBN 技术公司
简介：作者提出了一个神经网络联合模型(NNJM)的新公式，在原先的神经网络语言模型(NNLM)增加了源上下文窗口，提出的模型的纯词汇化的且能被集成到 MT 解码器，另外作者提供了具有更多显著附加提升的模型变种。尽管该模型非常简单，但是却获得了丰富的经验结果。在 NIST OpenMT12 阿拉伯语-英语条件下，NNJM 功能在功能强大、功能丰富的基准（已经包含仅目标NNLM）的基础上产生了+3.0 BLEU 的增益。在与 Chi-ang（2007）最初的 Hiero 实现相当的简单基准之上，NNJM 功能还产生了 +6.3 BLEU 的增益。此外，作者描述了两种新颖的技术来克服 MT 解码中使用 NNLM 样式模型的历史高成本。这些技术使NNJM的计算速度提高了 10,000 倍，使模型的速度与标准后退 LM 一样快。
论文地址：https://www.aminer.cn/pub/5550446645ce0a409eb4d55a/

6 Finding predominant word senses in untagged text（2004）

在未标记的文本中寻找主要的词义 引用:412
作者：Diana McCarthy、RobKoeling、JulieWeeds、JohnCarroll
机构: 苏塞克斯大学
简介：在词义歧义消除（WSD）中，选择最常识的启发式方法非常有用，因为一个词义的分布通常会偏斜。除了不考虑语境这一事实之外，使用主要的或第一感觉启发式方法的问题还在于，它假设了一些手工标记的数据。尽管有些语言提供了一些带有手工标记的语料库，但人们希望单词（尤其是主题词）的感觉频率分布取决于所考虑文本的体裁和领域。作者介绍了使用从原始文本语料库和 WordNet 相似性软件包中获取的同义词库来自动查找主要名词意义的工作。在 SENSEVAL-2 英语全单词任务的名词中，获得的主要感官可提供 64％的精度。本文的方法不需要任何带有手工标记的文本，例如 SemCor，因此是一个非常有希望的结果。此外，作者证明了他们的方法从两个特定领域的语料库中发现了合适的词义。
论文地址：https://www.aminer.cn/pub/53e9a9f0b7602d9703358242/

7 Immediate-head parsing for language models （2001）
语言模型的瞬时头部解析引用:397
作者：Eugene Charniak
机构：布朗大学
简介：作者基于“瞬时头部”解析器提供了两种语言模型，该解析器将所有事件都限制在 c 的头部下方。尽管所有最准确的统计解析器都是瞬时头部解析的，但以前的语法语言模型都没有使用此技术。这两种模型的困惑都大大改善了 Trigram 模型的基线以及以前最好的基于语法的语言模型。对作者的模型这些改进分别为 24％和 14％达到了更好的水平。作者的研究还表明，对基础解析器的改进应该可以显着改善模型的困惑度，并且即使在短期内，瞬时头部语言模型也有很大的改进潜力
论文地址：https://www.aminer.cn/pub/53e9be0eb7602d9704ac4bc3/

8 Fast decoding and optimal decoding for machine translation（2001）
机器翻译的快速解码和最优解码引用:320
作者：Ulrich Germann、Michael Jahr、Kevin Knight、Daniel Marcu
机构：南加利福利亚大学、斯坦福大学
简介：良好的解码算法对于任何统计机器翻译系统的成功都是至关重要的。解码器的工作是根据先前学习的参数集（以及用于组合它们的公式）来找到最有可能的翻译。由于可能的翻译空间非常大，典型的解码算法只能检查其中的一部分，因此有可能错过良好的解决方案。在本文中，作者将传统的基于堆栈的解码算法的速度和输出质量与两个新的解码器进行了比较：快速贪婪解码器和将解码视为整数编程优化问题的慢速最优解码器。
论文地址：https://www.aminer.cn/pub/53e9bb01b7602d9704736c13/

9 Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus（2007）

用 Lambda 演算学习语义解析的同步语法 引用:292

作者：Yuk Wah Wong 、Raymond J. Mooney
机构：德克萨斯大学奥斯汀分校
简介：本文给出了对能生成逻辑形式的同步语法的学习第一个实证结果。使用统计机器翻译技术，在给定一组训练语句及其正确逻辑形式的情况下，可以学习基于以-运算符增强的同步上下文无关语法的语义解析器。结果表明，解析器是迄今为止数据库查询域中性能最佳的系统。
论文地址：https://www.aminer.cn/pub/53e9b6cab7602d97042529b9/

10 A New String-to-Dependency Machine Translation Algorithm with a Target Dependency Language Model （2008）
目标依赖语言模型的一个新的字符串到依赖的机器翻译算法引用:280
作者：LibinShen、JinxiXu、RalphWeischedel
机构：BBN 技术公司
简介：在本文中，作者提出了一种用于统计机器翻译的新型字符串到依赖的算法。在这个新框架下，本文在解码过程中采用了目标依赖语言模型来开发长距离单词关系，而传统的 n-gram 语言模型则无法提供这种功能。作者的实验表明，与 NIST 04 中英文评估套件上的标准分层字符串到字符串系统相比，字符串到依赖解码器在 BLEU 方面提高了 1.48 分，在 TER 上提高了 2.53 点。
论文地址：https://www.aminer.cn/pub/53e9ad99b7602d9703796f83/

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论ACL论文

相关数据

John Makhoul人物

麻省理工学院博士，BBN科技首席科学家，从事语音信号研究。他在线性预测编码方面的工作被用于网络语音协议（NVP），使得语音信号能够通过ARPANET传输。2016年，他因在语音和语言处理方面的贡献而获得了ISCA奖章。

来源：维基百科 J Makhoul

最大熵模型技术

最大熵原理是概率模型学习的一个准则：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。应用最大熵原理得到的模型就是最大熵模型。

来源：Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical review, 106(4), 620.Wikipedia

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

渐近复杂度技术

渐进时间复杂度是指对于一个算法来说，我们常常需要计算其复杂度来决定我们是否选择使用该算法。对于一个算法，假设其问题的输入大小为n，那么我们可以用 O(n) 来表示其算法复杂度(time complexity)。那么，渐进时间复杂度（asymptotic time complexity）就是当n趋于无穷大的时候，O（n）得到的极限值。

来源：cornell-cs3110 Wikipedia Baike

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

上下文无关文法技术

上下文无关文法，在计算机科学中，若一个形式文法 G = 的产生式规则都取如下的形式：V -> w，则谓之。其中 V∈N，w∈* 。上下文无关文法取名为“上下文无关”的原因就是因为字符V 总可以被字串w 自由替换，而无需考虑字符V 出现的上下文。

来源：维基百科

统计机器翻译技术

随着统计学的发展，研究者开始将统计模型应用于机器翻译，这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译（SMT）

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而是按照单词的意义组成一个“单词的网络”。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

语言学技术

每种人类语言都是知识和能力的复合体，语言的使用者能够相互交流，表达想法，假设，情感，欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究：如何构建这样的知识体系，如何获取，如何在消息的制作和理解中使用它，它是如何随时间变化的？语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性？语言如何不同，系统的差异程度如何，我们能否在差异中找到模式？孩子如何在短时间内获得如此完整的语言知识？语言随时间变化的方式有哪些，语言变化的局限性是什么？当我们产生和理解语言时，认知过程的本质是什么？语言学研究的就是这些最本质的问题。

来源：Linguistics