2020/07/16 11:07

兰艳艳：SIGIR十年趋势

AIS2020顶级会议论文报告会精彩回顾。

2020 年 5 月 23 日上午，在中国中文信息学会青年工作委员会主办、北京智源人工智能研究院和美团点评承办的“ACL-IJCAI-SIGIR 顶级会议论文报告会（AIS2020）”中，智源青年科学家、中科院计算所研究员兰艳艳做了题为《SIGIR 的趋势报告》的前沿分析。

兰艳艳，主要研究方向为机器学习和信息检索，在相关领域重要会议和期刊累计发表论文 30 余篇，获得了 SIGIR 2012 的最佳学生论文奖和 CIKM 2017 最佳论文 Runnerup 奖。

本次演讲中，兰艳艳介绍了近10年 SIGIR 论文投稿和录稿的整体发展趋势，并着重分析了SIGIR最近两年会议论文中的研究热点和动向，以及就如何提高SIGIR 的投稿录取率分享了自己的经验和技巧。

据悉，作为信息检索领域的顶级会议， SIGIR 2020 即将于7月25日召开，所以本篇报告也很适于大家预热一下对信息检索领域最新动态的趋势性认知，是一篇很好的SIGIR 2020 观摩指南。以下是智源社区编辑为大家整理的演讲内容，请大家阅读。

SIGIR 2020 背景介绍

兰艳艳首先简明扼要地介绍了一下SIGIR 2020的相关背景。

SIGIR 属于信息检索领域的顶级会议，由 ACM SIGIR 组织于 1978 年开始举办。举办方式是每三年在美洲、欧洲和其它区域轮换进行，比如2017 年在日本东京、2018 年在美国密西根大学、2019 年在法国巴黎，而2020年的SIGIR 会议将在中国西安举行。因为疫情的影响，这次SIGIR 2020 已经改为线上举办的模式。值得一提的是，这次中国学者在 SIGIR 2020 的组委会中占据了一半以上，这意味着中国学者经过艰辛的努力后，在 SIGIR 中开始有着非常良好的发展。

SIGIR 投稿和录稿十年趋势分析

图 1：1999-2019 年 SIGIR 论文投稿及录稿趋势

如图1所示的1999年至2019年SIGIR 论文投稿及录稿趋势，我们可以看到在 2009至2012 年之间 SIGIR 投稿、录取数达到了顶峰阶段，而在 2012 年之后出现了明显的下滑，直到2018 年，经过征文主题的改革后，SIGIR 才出现复苏，到2020年开始有了一个比较大的增长，无论是投稿量还是收稿量都实现了突破，500多篇中有140篇被接收，录取率也从之前的18%至22%之间增长到28%。

接下来，兰艳艳比较了2019、2020年中美学者的论文接收情况。我们发现，自 2019 年开始，中国学者在接收率上（36/141）第一次取得了比美国学者更好的成绩（22/99）。2020 年，从目前的数据来看，中国学者持续了2019 年的超越趋势，稳中向好，其中Full Paper的接收量为67篇，远高于美国的37篇，而Short Paper 的情况也和Full Paper类似，具体接收率等数据还需等待会议官方揭晓。

图 2：2019 年中美两国学者论文接受情况

图 3：2020 年中美两国学者论文接受情况

SIGIR 最近两年的研究热点

下面我们来看一下2019年的SIGIR主题分布（图4），自2018开始，它相对于以前有了很大的改变，会议主题设置已经从检索、搜索和推荐等开始向更多的方向扩展，包括Core IR、Recommendation、AI&IR、Human、Evaluation、Application、Foundation and Future等，所以整个SIGIR近两年的改革方向将会更加开放，尤其鼓励更多AI与IR结合的方向。

图 4 2019 年 SIGIR 热门 Topic 及收稿趋势

根据对 2019 年 SIGIR 热门Topic 及收稿统计数据的研究，我们可以从中发现如下几个规律：

① Recommendation成为主要Track；

② Core AI式微；

③ 投稿量高的Track，不一定接受率就高；

④ Human和Evaluation等小众Track，投稿量少但是接受率很高，值得关注。

图 5：2020 年 SIGIR 不同 Topic 接收统计表

2020 年热门 Topic 的接受率与 2019 年相比基本相同，依旧是 Recommendation 占了最大的比重，投稿量和接收量仍然最多；由于 Ranking 和 Search 属于 AI 非常关注的问题，所以比重也很大，Foundation、Human 和 Evaluation 持续小众。

综合来说，Recommendation是SIGIR目前的主要Topic之一，同时一些小众Topic，例如Human和Evaluation在录取率方面也有一定的优势。

图 6：2019 年与 2020 年 SIGIR Full Paper 研究热点词云

下面，我们通过Full Paper 和Short Paper 的词云图来进一步看2019年、2020年 SIGIR 的研究热点。首先，通过2019 年、2020 年的 Full Paper 词云图中可以看到，从任务的角度上看， Search、Recommendation 和 Generation 等多个方面的研究比较多，使用的方法主要是Machine Learning、Knowledge Embedding、Graph Neural Network等方法。其中，Search任务上，这几年的研究热点主要是如何将深度神经网络包括强化学习在内的一些新方法，用到检索函数的设计上；Recommendation任务上，除了基于神经网络的推荐函数之外，推荐系统与用户的交互，以及推荐系统的解释性，都是这两年的研究热点；Generation任务最近两年在SIGIR的投稿量明显增多，除了一般的NLP任务，SIGIR更关注应用于Conversational IR的对话研究，期待该方向的研究能够更好的推动个人智能助手技术的发展。此外Adversary 也是最近两年比较受关注的，比如 SIGIR 2017年曾将 Best Paper Runner-Up奖颁布给了Adversary方面的工作 “IRGAN: AMinimax Game for Unifying Generative and Discriminative Information Retrieval Models”。

图7：2019 年与 2020 年 SIGIR Short Paper 研究热点词云

从 Short Paper 词云图的角度，2019 年和 2020 年的趋势与Full Paper 词云图呈现的发展趋势类似，也是 Recommendation 占据了很大一部分，同时还可以看到像Transformer 这样的 AI 新方法正开始受到欢迎。

通过上述词云图的分析，我们可以得到这样几个规律：

① IR 更加关注的还是 Traditional IR tasks，例如：Recommendation, Search, Ranking；

② Neural + IR 正在流行，如 Neural, Representation, Graph, Attention；

③ 目前在 IR 中收到关注的前沿AI技术有：Adversarial 和 Transformer；

④ 目前 Diverse Applications 例如 Generation, Conversation, Multi Domain 相对更加容易发论文。

SIGIR 投稿建议：关注基础，重视技术

接下来，兰艳艳根据近年SIGIR的论文发表情况，为大家分享了一些SIGIR论文的中稿技巧。首先，她盘点了SIGIR 往年的 Best Paper，指出 SIGIR 是一个关注基础的会议，比较重视技术，比如 2019 年颁给了一个研究优化方法的文章，2016 年颁给了 Understanding Information Need，今年的 Best Paper 花落谁家，请拭目以待。

图8：SIGIR 历年最佳论文

那么，如何提高论文在 SIGIR 的接收率呢？可以关注以下几个小技巧：

① 拓展投稿领域。透过SIGIR的发展规律，可以发现它接受论文的领域圈子变得越来越广，AR、ML、NLP 等相关领域都可以投稿。

② 重视实验部分。SIGIR 是特别注重实验的会议，想要做一篇好的 SIGIR Paper，实验内容要占到文章总篇幅的近一半内容，因此实验部分一定要做的足够充分。

③ 新的 Application 可能会更加受欢迎。如果文章是关于一个新 Application，比如 Cross-domain 或者 Human Study，那么此类文章相对比较容易引起 SIGIR 关注，做模型反而是比较困难的事情。

④ 冷门领域新出路。当前ML领域开始收到关注但在应用上看来还比较偏的领域，实际上在 SIGIR 圈子当中比较受欢迎，例如 Bias, Fairness 和 Interpretability。这也和SIGIR关注的应用比较有关系。例如搜索或推荐中有很典型的Position Bias问题，这对于建模就是一个非常重要的问题；再比如现在IR中用到很多神经网络的方法，但这些方法往往很难解释，但对IR系统来说，提供一个可解释的结果对用户体验是很重要的，所以可解释性方向在IR领域越来越受关注。

智源研究院

北京智源人工智能研究院（BAAI）是致力于推动人工智能基础研究、技术创新和产业发展的新型研发机构，由北京人工智能领域优势单位联合发起成立。

https://www.baai.ac.cn/

产业SIGIR兰艳艳

相关数据

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia