本文是机器之心《2021-2022 年度 AI 技术趋势发展报告》中算法理论研究篇章关于人类语言处理的顶会观察,点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。
技术趋势分析
从ACL 2021年会议论文和近年来计算语言处理领域的研究论文可以看出,与其它AI相关的研究领域相比,计算语言处理领域中已有很多技术/算法/模型应用在实际场景中,所以与前几年追求准确率相比,近年来的论文更多关注模型的可解释性、泛化性以及社会性问题,同时也有越来越多的研究人员关注由此产生的伦理问题、垄断问题。
同时,Word Embedding仍然是各类NLP文章中最关注的技术和方法,说明这一技术在计算语言处理领域中的适用性、有效性仍然是最优的。
预训练语言模型在ACL 2021 的文章中几乎呈现了压倒性的优势,包括BERT、RoBERTa、BART、 GPT-2等。这是计算语言处理会议与其它顶会最大的不同。预训练可能是其它领域中某些情况下可选的技术方案,但是却是计算语言处理领域中的绝对最优技术方案之一。不管是字节跳动还是百度,在 ACL 2021上都公布了成绩非常出色的预训练语言模型。
不过,在计算语言处理领域中迁移能力仍然不乐观。计算语言处理领域中所谓的in-domain如何界定?目前英语的各类NLP模型直接迁移应用到其它语言中的效果均不佳 。
会议整体情况
计算语言学会(ACL)是自然语言处理领域影响力最大的国际学术组织,ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议之一。ACL 2021 已是第 59 届,于2021年8月1日到2021年8月6日以虚拟会议的方式召开。
据官网数据显示,本届大会共收到3350篇有效论文投稿,其中包括 2327 篇长论文和 1023 篇短论文。最终有 710 篇被接收,包括571篇长文和139篇短文,论文接受率为21.2%。在本次的会议中,另有 493 篇论文被接收为 Findings,Findings论文录用率为14.9%,收录到了大会的 Findings 子刊中。大会主席介绍,ACL的Findings机制是指有些论文虽然没有被主会所接收,但工作也有一定的质量和创新性,因而被接收为Findings论文。在大会发出邀请的493篇Findings论文中,有457篇论文作者最终接受了邀请。
从会议接收的论文总数来看,近三年论文总数爆炸增长,不过本次会议的投稿总数与去年相比有小幅减少。从近四年论文接收情况来看(主会议论文),ACL的接收率也是逐年下降,本次的主会议论文接收率(不计算findings数据)已经降至21.2%。不过,短文的接收率更低,所以可以看出,ACL更愿意接收长文的投稿。
奖项情况
本届大会的最佳论文《Vocabulary Learning via Optimal Transport for Neural Machine Translation》来自中国机构字节跳动火山翻译团队,提出了一种新的词表学习方案 VOLT(VOcabulary Learning approach via optimal Transport),在多种翻译任务上取得了优秀的结果。
论文链接:https://arxiv.org/abs/2012.15671
代码地址:https://github.com/Jingjing-NLP/VOLT
论文出发点。标记词汇的选择会影响机器翻译的性能。本文旨在找到“什么是好的词汇”,以及是否能够在不进行试训的情况下找到最佳词汇。
思路关键点。为了回答这些问题,作者首先从信息论的角度对词汇的作用进行了另一种理解。基于此,作者将词汇化的探索——寻找大小合适的最佳token词典——表述为一个最优传输(Optimal Transport,OT)问题。作者提出了(VOcabulary Learning approach via optimal Transport,VOLT)---一种简单有效的无需试训的解决方案。
实验结果。VOLT在不同的场景下,包括WMT-14英德翻译和TED多语言翻译,都优于广泛使用的词汇表。例如,在英德翻译中,VOLT实现了近70%的词汇量缩减和0.5 BLEU增益。此外,与BPE搜索相比,VOLT将英德翻译的搜索时间从384 个GPU小时减少到30个 GPU小时。
发表论文作者相关数据情况
ACL 2021录用的论文共计覆盖3978位从业学者(经过简单的同名作者识别后)。其中,有1位学者有21篇相关论文发布在ACL 2021,1位学者有14篇相关论文,2位作者有13篇相关论文,总计22位学者被录用的论文数量在8篇以上(含8篇),详情参见表3。
作者 | 组织 | 相关论文数量 |
Jie Zhou | Pattern Recognition Center, WeChat AI, Tencent Inc | 21 |
Minlie Huang | Tsinghua University | 14 |
Ting Liu | Harbin Institute of Technology | 13 |
Yue Zhang | School of Engineering, Westlake University 、 Institute of Advanced Technology, Westlake Institute for Advanced Study | 13 |
Furu Wei | Microsoft Research Asia | 12 |
Fandong Meng | Pattern Recognition Center, WeChat AI, Tencent Inc, China | 12 |
Maosong Sun | Department of Computer Science and Technology, Tsinghua University, Beijing, China | 11 |
Zhiyuan Liu | Tsinghua University | 10 |
Lei Li | ByteDance AI Lab | 9 |
Fei Huang | Alibaba Group, China | 9 |
Yan Song | The Chinese University of Hong Kong (Shenzhen) 、 Shenzhen Research Institute of Big Data | 9 |
Xuanjing Huang | Fudan University | 9 |
Qun Liu | Huawei Noah’s Ark Lab | 9 |
Nan Duan | Microsoft Research | 9 |
Haifeng Wang | Baidu Inc., China | 9 |
Shuming Shi | Tencent AI Lab | 8 |
Ryan Cotterell | University of Cambridge 、 ETH Zürich | 8 |
Kewei Tu | ShanghaiTech University | 8 |
Jun Zhao | University of Chinese Academy of Sciences | 8 |
Hua Wu | Baidu Inc., China | 8 |
Hai Zhao | Shanghai Jiao Tong University | 8 |
Daxin Jiang | Microsoft Search Technology Center Asia, Beijing, China | 8 |
来自腾讯微信AI团队的Jie Zhou在本次大会中录用的论文数量最多,达到了21篇(包括正式论文和findings)。微信AI团队一直致力于机器翻译、智能对话、自然语言理解等领域,因此ACL 2021中的论文也主要与应用于机器翻译的语言模型、对话问答生成、对话语句中动态信息生成等内容相关。
来自清华大学的Minlie Huang(黄民烈)教授有14篇论文在ACL 2021中发表,主要也是关于对话中语言理解、问答系统等的内容。黄民烈教授的主要研究方向是NLP中的深度学习、对话AI、语言/文本生成、语义理解、情感分析以及NLP的各类应用。
发表论文机构相关数据情况
网易伏羲共有三项研究被本届ACL收录,内容包括自然语言生成、无监督文本表示学习等方向,相关技术已应用于游戏、文创及智慧文旅等行业。百度共有14篇论文被大会收录,内容覆盖跨模态预训练、语言理解、人机对话、机器翻译、知识图谱等多个方向。
美团技术团队共有7篇论文(其中6篇长文,1篇短文)被ACL 2021接收,这些论文涉及了事件抽取、实体识别、意图识别、新槽位发现、无监督句子表示、语义解析、文档检索等自然语言处理任务中的技术和应用。
ACL热门主题
ACL 2021论文主要包括10个分类,如下:(1)预训练语言模型及应用;(2)表征学习;(3)问答及检索;(4)文本生成;(5)摘要;(6)小样本;(7)对话;(8)情感及情绪分析;(9)信息抽取;(10)其他。根据下图的投稿量数据,本届计算语言处理大会中机器学习、翻译、信息提取、对话交互系统等主题是研究人员探索的主流。
从投稿关注的领域上,3年前,CNN等是计算语言方面研究人员关注的重点,但2021年大会上最受计算语言领域研究人员关注的重点则是预训练语言模型,包括BERT、RoBERTa、BART、GPT-2等。
从最终收录论文所属的领域角度分析,前五名的主题和2020年相同,分别为机器学习、机器翻译和多语言、信息抽取、对话系统、NLP应用和句法分析。
ACL趋势观察
ACL 2021大会官网给出了计算语言处理领域的NLP研究热点趋势分析。结合大量的实际应用场景的需求,计算语言处理领域的研究热点集中在对话、语言和视觉、计算社会科学、知识基础/常识、NLP中的伦理等等。
从整个计算语言处理领域角度分析,近年来相关论文中涉及到最多的关键词为“Word Embeddings”。
计算语言处理这一领域在很多实际的社会场景中都有所应用。前几年重点关注各种NLP模型/方法识别率,而本次会议研究论文中更多的则是关注整个系统的表现情况、准确情况。大会发言人也呼吁:研究者不要仅关注SOTA结果,盲目追求系统准确性,也可以关注可解释性、泛化性、伦理性、社会影响等因素。
最后,根据ACL的一项调查,参与调查的人中有47.5%认为,从长期来讲NLP对于解决某些社会问题是有益处的。此外,还有30.5%的人认为,NLP在解决大量社会问题方面可以起到关键性作用。
点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。已获得「机器之心Pro 会员」全功能账号权限的用户可直接下载查看。如您还没有「机器之心Pro会员」,扫描下方二维码关注「机器之心Pro」服务号(id:almosthuman2014pro),进入服务号主页,点击对话框,编辑发送「机器之心Pro会员」咨询,客服值班时间为工作日的10:00 - 19:00。