2015年EMNLP自然语言处理实证方法会议(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召开。EMNLP是自然语言处理领域的顶级会议,由ACL学会下属特殊兴趣小组SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)组织,每年召开一次。本次大会吸引了来自学术界和企业界近千人参加。
会议概况
本次会议共收到来自 58个国家和地区的1300篇论文投稿,其中来自中国大陆地区的投稿257篇,位居第2位,仅次于美国。来自全球各地的30位Area Chairs和900多位审稿人员组成了程序委员会,对投稿进行了严格的评审。会议收到的长文投稿约600篇,短文投稿约700篇,最终录用312 篇论文,录用率为24.04%,基本与自然语言处理顶级会议ACL的投稿量和录取率持平。EMNLP从2013年开始录用短文,今年短文投稿量相比前两年平均200余篇的投稿量有了显著增长。会议论文有口头报告和海报报告两种形式,并首次尝试让录取论文作者投票选择感兴趣的论文,来确定论文报告形式。本次会议还安排了部分期刊TACL(Transactions of the Association for Computational Linguistics)的论文进行口头报告。
会议论文
自然语言处理实证方法会议涉及自然语言处理的数据标注、算法、应用等各个领域,是自然语言处理学术界和产业界的研究人员进行交流、思想碰撞与合作的重要平台。该会议涵盖多个主题:音韵学、构词法及分词;标注、组块分析及句法分析;对话系统;语义;文档摘要和产生;统计机器学习方法;机器翻译;信息抽取;信息检索与问答;情感分析与意见挖掘;语音技术处理;计算心理语言学;互联网与社交媒体;语言与视觉;文本挖掘与应用。其中语义作为近几年最火的方向,吸引了近200篇论文投稿。其他几个主要方向如信息抽取、机器翻译等也分别有近150篇投稿量。
在本次会议上,以人工神经网络为代表的深度学习与表示学习大放异彩。以词表示学习算法和开源工具word2vec的发布和流行为标志,近年来词表示、句子表示、文档表示以及知识表示引起了自然语言处理研究者们的极大兴趣。在这方面,今年会议上Tobias Schnabel等人的“Evaluation methods for unsupervised word embeddings”对近年提出的几种主要词表示模型,在不同任务上系统地进行了对比测试,得出了很多经验性结论,值得关注。 自去年在机器翻译领域得到有效验证之后,基于Attention的神经网络模型在今年会议上大放异彩:Thang Luong等人的“Effective Approaches to Attention-based Neural Machine Translation”对基于Attention的神经网络机器翻译模型做了进一步改进;Sumit Chopra等人的“A Neural Attention Model for Abstractive Sentence Summarization”将该模型应用到了文本摘要任务。尤其值得一提的是,在深度学习著名学者约书亚·本吉奥(Yoshua Bengio)的特邀报告中,基于Attention的神经网络模型也备受推崇,相信接下来会得到更为广泛深入的研究与应用。还有很多工作采用了长短期记忆模型(LSTM)、递归神经网络(RNN)、卷积神经网络(CNN)等模型解决自然语言处理的各类任务:Xinchi Chen等人的“Long Short-Term Memory Neural Networks for Chinese Word Segmentation”将LSTM用于中文分词;DuyuTang等人的“Document Modeling with Convolutional-Gated Recurrent Neural Networkfor Sentiment Classification”将Gated RNN和CNN结合应用于情感分析;Rui Lin等人的“Hierarchical Recurrent Neural Network for Document Modeling”将RNN应用于文档建模;Yan Xu等人的“ClassifyingRelations via Long Short Term Memory Networks along Shortest Dependency Paths”则将LSTM应用于关系分类;等等。可以看到,深度学习和神经网络模型已经在各自然语言处理任务上取得了引人注目的成绩,以至于EMNLP被人戏称为“Embedding Methods for NLP”的简称。
特邀报告
本次EMNLP会议邀请了约书亚·本吉奥(YoshuaBengio)和贾斯汀·格里默(Justin Grimmer)做大会特邀报告。 约书亚•本吉奥是蒙特利尔大学的全职教授,是机器学习特别是深度学习的著名学者。他与杰夫•辛顿(Geoff Hinton)以及燕乐存(Yann LeCun)两位教授,共同缔造了2006年开始的深度学习复兴。他的研究工作重心在高级机器学习方面,自然语言处理的神经网络语言模型的开山之作就是来自于他的团队。约书亚•本吉奥的报告题目为“深度学习中的语义表示(Deep Learning of Semantic Representations)”,着重介绍了近些年自然语言处理语义表示学习的进展。他首先对比了语义表示学习和传统的机器学习方法的优势所在。接下来他通过机器翻译为例子介绍了语义表示学习近些年来主要的模型和发展。其中,他十分推崇近两年来在翻译领域得到很好效果的基于Attention的神经网络模型。在报告的最后,约书亚•本吉奥展望了未来几个重要研究趋势,值得我们特别关注:
(1)将传统隐变量模型(Latent variable Models)同RNN等生成模型相结合;
(2)探索考虑多时间粒度的神经网络模型,描绘长距离依赖关系;
(3)多模态(将文本与图像,音频,视频等结合);
(4)探索Neutral Turing Machine和Memory Network等基于记忆的神经网络模型;
(5)问答和自然语言理解。
贾斯汀·格里默是斯坦福大学的副教授,他的主要研究方向是采用机器学习方法探索美国政坛的情况。报告展示了美国选举人如何利用社交媒体培养支持者,支持者如何向他们支持的选举人表达自己的意见。同时,调查结果可以帮助我们理解美国政坛的代表产生,以及计算工具如何帮助我们解释社会科学中的问题。
最佳论文
本次会议评选出了两篇最佳论文。其中一篇是来自康纳尔大学的“Broad-coverage CCG Semantic Parsing with AMR”,论文第一作者是YoavArtzi。论文提出了对于AMR语义分析的一种语法规约技术。传统的语法规约技术需要对于每个目标应用重新学习新的语法解析器,而最近AMR Bank使设计可以广泛理解新闻领域文本、同时支持不同应用的模型成为可能。作者将CCG解析同因子图模型相结合,前者用于发现语义的可组合部分,后者用于表示语义中的不可组合部分,取得了令人满意的效果。 另一篇最佳论文是来自剑桥大学的“SemanticallyConditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems”,论文第一作者是Tsung-HsienWen。自然语言产生系统是对话系统的重要组成部分。目前大多数的自然语言产生系统通常使用规则和启发方法来产生回复,所产生的回复一般严格符合某种程序规则,没有自然语言中的语言变体,同时这种方法也不易于扩展到其他语言和领域。针对这个问题,作者提出了基于长短期记忆模型LSTM的自然语言产生系统。LSTM可以通过句子规划和表意实现从非对齐语料中自动学习,并通过在输出结果中抽样实现语言变体。
本次会议还评选了一篇最佳数据集论文,是来自斯坦福大学的“A large annotated corpus for learning natural language inference”,第一作者是SamuelR. Bowman。该论文发表了一个面向自然语言推理任务的数据集,解决了该任务没有大规模标注数据集的困境,将极大推动该任务的研究进展。 其他获得最佳论文提名的有:来自KelvinGuu,John Miller和Percy Liang的“Traversing Knowledge Graphs in Vector Space”,来自AurelieHerbelot和Eva Maria Vecchi的“Building a shared world: mapping distributional to model-theoreticsemantic spaces”,来自Karthik Narasimhan,Tejas Kulkarni和Regina Barzilay的“Language Understanding for Text-based Games using DeepReinforcement Learning”。
讲习课程和研讨会
EMNLP 2015 共设立了 15 场讲习课程讲座和研讨会,涵盖了信息抽取,语义,社交网络,机器翻译等自然语言处理的各个热点问题。这些课程在会议的前两天举办。
总结和展望
从本次会议可以强烈感受到,EMNLP已经成为自然语言处理,特别是统计自然语言处理领域的学术盛会。据说由于会场规模限制,大会组织者不得不提前关闭会议注册系统,可见近年来该领域的蓬勃发展远超组织者们的想象。特别值得一提的是,本次EMNLP会议的口头报告、海报报告以及各分会场主席,都能看到中国学者的活跃身影,本次会议来自中国大陆的投稿量已经仅次于美国位列第二。
本次会议论文也发出了明确的信号,深度学习和神经网络模型已经成为自然语言处理各任务的重要研究方法。特别是“端到端(end-to-end)”的设计思想,抛弃了传统的“词法->句法->语义”流水线模式中特征构造、选择和标注的繁琐工作。大量研究成果展示了深度学习的优越性,值得国内学者密切关注。 当然,我们也需要深刻思考,作为自然语言处理学者,我们能为深度学习在自然语言处理中的应用做些什么,而不仅仅是“拿来主义”。例如,传统自然语言处理研究积累了大量的特征、知识和模型,是否应该完全摈弃?这些由专家们几十年辛勤耕耘收获的先验知识,是否可以引入深度学习框架,指导神经网络模型的设计与应用?语言是人类智能的最高体现。吸收学习深度学习的最新进展,进一步探索符合自然语言特点的深度学习框架,实现自然语言理解能力的显著提高,亟待我们来完成。