Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

清华包揽最佳论文+时间检验奖,山大获荣誉提名,SIGIR 2024奖项出炉

清华成绩亮眼。


第 47 届国际计算机协会信息检索大会(ACM SIGIR) 于 2024 年 7 月 14 日至 18 日在美国华盛顿特区举行。该会议是信息检索领域的顶级学术会议。

刚刚,大会公布了最佳论文奖、最佳论文亚军、最佳论文荣誉提名奖以及时间检验奖等奖项。

其中,清华大学、中国人民大学高瓴人工智能学院、小红书团队获得了最佳论文;来自格拉斯哥大学、比萨大学的研究者摘得亚军;最佳论文荣誉提名奖颁给了山东大学(青岛)、莱顿大学、阿姆斯特丹大学的研究者;时间检验奖颁给了清华大学、加州大学圣克鲁斯分校的研究者。

接下来,我们来看获奖论文的具体内容。

最佳论文
图片
  • 论文:Scaling Laws For Dense Retrieval
  • 论文作者:方言、Jingtao Zhan、艾清遥、毛佳昕、Weihang Su、Jia Chen、刘奕群
  • 机构:清华大学、中国人民大学高瓴人工智能学院、小红书
  • 论文链接:https://dl.acm.org/doi/abs/10.1145/3626772.3657743

论文简介:在广泛的任务中,特别是在语言生成中,研究人员都观察到了扩展定律。研究表明大型语言模型的性能遵循模型和数据集大小的可预测模式,这有助于有效且高效地设计训练策略,特别是在大规模训练变得越来越资源密集的情况下。然而,在密集检索中,扩展定律尚未得到充分探索。

该研究探索了扩展如何影响密集检索模型的性能。具体来说,研究团队实现了具有不同数量参数的密集检索模型,并使用不同数量的注释数据对其进行训练。该研究使用对比熵(contrastive entropy )作为评估指标,与离散的排名指标相比,对比熵是连续的,因此可以准确地反映模型的性能。
图片
实验结果表明,密集检索模型的性能遵循与模型大小以及注释数量相关的精确幂律扩展。
图片
图片
图片
此外,该研究还表明,扩展定律有助于优化训练过程,例如解决预算约束下的资源分配问题。
图片
这项研究极大地有助于理解密集检索模型的扩展效应,为未来的研究提供了有意义的指导。

最佳论文亚军

本届 ACM SIGIR 最佳论文亚军颁给了论文「 A Reproducibility Study of PLAID 」。论文作者包括来自格拉斯哥大学的 Sean MacAvaney、以及来自比萨大学的 Nicola Tonellotto。

图片

论文地址:https://arxiv.org/pdf/2404.14989

论文摘要:ColBERTv2 的 PLAID 算法使用聚类术语表示来检索和逐步剪枝文档,以获得最终的文档评分。本文复制并填补了原文中缺失的空白。通过研究 PLAID 引入的参数,研究者发现它的帕累托边界是由三个参数之间的平衡形成的。超出建议设置的偏差可能会大大增加延迟,而不一定会提高其有效性。

基于这一发现,本文将 PLAID 与论文中缺失的一个重要基线进行比较:对词汇系统进行重新排序。发现在初始 BM25 结果池之上应用 ColBERTv2 作为重新排序器,在低延迟设置中提供了更好的效率 - 有效性权衡。这项工作强调了在评估检索引擎效率时仔细选择相关基线的重要性。

最佳论文荣誉提名奖

此次会议的最佳论文荣誉提名奖由山东大学(青岛)、莱顿大学、阿姆斯特丹大学的研究者摘得。获奖论文为「 Generative Retrieval as Multi-Vector Dense Retrieval 」。
图片
  • 论文作者:吴世广,魏闻达,张孟奇,陈竹敏,马军,任昭春,Maarten de Rijke,任鹏杰
  • 论文地址:https://arxiv.org/pdf/2404.00684

论文摘要:本文通过证明生成检索和多向量密集检索共享相同的框架来衡量文档查询的相关性。具体来说,他们研究了生成检索的注意力层和预测头,揭示了生成检索可以理解为多向量密集检索的一个特例。这两种方法都通过计算查询向量和文档向量与对齐矩阵的乘积之和来计算相关性。 

然后,研究者探讨了生成检索如何应用此框架,他们采用不同的策略来计算文档 token 向量和对齐矩阵。并进行了实验来验证结论,表明这两种范式在其对齐矩阵中都表现出术语匹配的共性。

时间检验奖

本届 ACM SIGIR 时间检验奖颁给了 10 年前在 SIGIR 2014 上发表的关于可解释推荐的研究,论文为「 Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis 」。
图片
  • 论文作者:张永锋、 赖国堃 、 张敏 、 Yi Zhang 、 刘奕群 、马少平
  • 机构:清华大学、加州大学圣克鲁斯分校
  • 论文链接:https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf

该研究首次定义了「可解释性推荐」问题,并提出了相应的情感分析方法用于解决这一技术挑战,在相关领域一直发挥着引领作用。

论文摘要:基于协同过滤(CF)的推荐算法,例如潜在因子模型(LFM),在预测准确率方面表现良好。然而,潜在特征使得向用户解释推荐结果变得困难。

幸运的是,随着在线用户评论的不断增长,可用于训练推荐系统的信息不再仅限于数字星级评分或用户 / 商品特征。通过从评论中提取用户对产品各个方面的明确意见,可以更详细地了解用户关心的方面,这进一步揭示了做出可解释推荐的可能性。

本文提出了 EFM(Explicit Factor Model )来生成可解释的推荐,同时保持较高的预测准确率

研究者首先通过对用户评论进行短语级情感分析来提取显性产品特征和用户意见,然后根据用户兴趣的特定产品特征和学习到的隐藏特征生成推荐和不推荐。此外,从模型中还生成了关于为什么推荐或不推荐某件商品的直观特征级解释。

在多个真实数据集上的离线实验结果表明,该研究提出的框架在评分预测和 top-K 推荐任务上均优于竞争基线算法。在线实验表明,详细的解释使推荐和不推荐对用户的购买行为更具影响力。

青年学者奖

ACM SIGIR 青年学者奖旨在表彰在信息检索研究、学者社区建设、推进学术公平等方面发挥重要作用的研究人员,要求授予获得博士学位 7 年以内的青年研究学者。来自清华大学计算机系的助理教授艾清遥、来自中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师王翔获得了 SIGIR 2024 青年学者奖。

艾清遥

艾清遥是清华大学计算机系助理教授,主要研究领域集中在信息检索机器学习以及自然语言处理研究方面。重点研究方向为智能信息检索系统的研究与设计,包括信息表示学习、排序优化理论、大语言模型在互联网搜推和智慧司法上的应用等。

王翔

王翔是中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师。王翔教授的研究兴趣包括信息检索数据挖掘以及可信、可解释人工智能,特别是推荐系统、图学习和社交媒体分析。
产业ACM SIGIR
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~