Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。

今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。

图片

作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。

根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,一共 329 篇。

图片

今年的参会总人数高于往年,且越来越多的人选择了线下参会。

图片

最佳论文

  • 论文 1:Generative Image Dynamics

  • 作者:Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski

  • 机构:谷歌研究院

  • 论文地址:https://arxiv.org/pdf/2309.07906

图片

Zhengqi Li(李正奇)是 Google DeepMind 的一名研究科学家。此前,他在康奈尔大学获得了计算机科学博士学位,师从 Noah Snavely 教授。他的研究成果曾多次获奖,包括 2020 年 Google 博士奖学金、2020 年 Adobe 研究奖学金、CVPR 2019 和 CVPR 2023 最佳论文荣誉奖、ICCV 2023 最佳学生论文奖。

摘要:该研究提出了一种对场景运动建模图像 - 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的运动轨迹,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该研究建模傅立叶域中密集的长期运动作为频谱体积(spectral volume),研究团队发现这非常适合用扩散模型预测。

图片

给定单个图像,该研究训练的模型使用频率协调扩散采样过程来预测频谱体积,还可以转换为跨越整个视频的运动纹理(motion texture)。

图片

                             该研究可以通过调整运动纹理的幅度来缩小(顶部)或放大(底部)动画运动。

与基于图像的渲染模块一起,预测的运动表征可用于许多下游应用,例如将静止图像变成无缝循环视频,或者允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。

图片

  • 论文 2:Rich Human Feedback for Text-to-Image Generation

  • 作者:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等

  • 机构:加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学

  • 论文地址:https://arxiv.org/pdf/2312.10240

图片

从论文作者一栏我们可以看到,这项研究有多位华人参与,其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生,在此之前,他是华南农业大学信息与计算机科学专业的本科生;Junfeng He 来自谷歌,此前他硕士毕业于清华大学

摘要:最近,文本到图像(T2I)生成模型取得重大进展,能够根据文本描述生成高分辨率图像。然而,许多生成的图像仍然存在伪影 / 不可信、与事实不符、美观度低等问题。

受人类反馈强化学习(RLHF)成功用于大型语言模型的启发,该研究通过以下方式来丰富反馈信号:

  • 用文本标记不可信或不对齐的图像区域;

  • 对文本 prompt 中的单词在图像上被歪曲或缺失的情况,进行注释。

图片

该研究创建了 18K 生成图像数据集 RichHF-18K,并在 RichHF-18K 上收集了丰富的人类反馈,并训练多模态 transformer 来自动预测反馈。该研究证明预测的人类反馈可用于改进图像生成,例如通过选择高质量的训练数据微调和改进生成模型,或者通过创建掩码来修复有问题的图像区域。

图片

最佳论文亚军

  • 论文 1:EventPS: Real-Time Photometric Stereo Using an Event Camera

  • 作者:Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi

  • 机构:北京大学、上海交通大学等

  • 论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

图片

  • 论文 2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

  • 作者:David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann

  • 机构:MIT、西蒙菲莎大学、多伦多大学

  • 论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

图片

最佳学生论文

  • 论文 1:BioCLIP: A Vision Foundation Model for the Tree of Life

  • 作者:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su

  • 机构:俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院

  • 论文地址:https://arxiv.org/pdf/2311.18803

摘要:从无人机到个人手机,各种相机收集的自然世界图像日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长,特别是计算机视觉,用于从科学和保护图像中提取生物学相关信息。然而,其中大多数都是为特定任务设计的定制方法,不容易适应或扩展到新的问题、上下文和数据集。研究者急需一个用于图像上一般生物体生物学问题的视觉模型。

为了实现这一目标,该研究策划并发布了 TREEOFLIFE-10M,这是规模最大、最多样化的生物图像数据集 ML-ready。基于此,研究者开发了基础模型 BIOCLIP,主要用于构建生命之树(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物学独特属性,即植物、动物和真菌图像的丰富性和多样性,以及丰富的结构化生物学知识。

图片

                         TREEOFLIFE-10M 中 108 个门的树状图。

研究者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试,发现 BIOCLIP 的表现始终显著优于现有基线(绝对值高出 16% 到 17%)。

内在评估表明,BIOCLIP 已经学会了符合生命之树的分层表示,这揭示了其强大的通用性。

  • 论文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting

  • 论文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

  • 机构:图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学

  • 论文地址:https://arxiv.org/abs/2311.16493

图片

摘要:最近,3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果,达到了高保真度和效率水平。然而,当改变采样率时(例如通过改变焦距或摄像机距离),强烈的伪影现象可能会出现。

图片

3D 高斯泼溅通过将 3D 对象表示为被投影到图像平面上的 3D 高斯函数,随后在屏幕空间中进行 2D 膨胀处理,如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制,如图 (b) 中的 δ 函数所示,而由于膨胀操作,其渲染效果类似于 2D。然而,当改变采样率(通过焦距或相机距离)时,会观察到强烈的膨胀效应(c)和高频伪影(d)。

该研究团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题,他们引入了一种 3D smoothing filter,该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小,从而在放大时消除高频伪影。

此外,作者团队用 2D Mip filter 替换 2D dilation filter,这种滤波器模拟了 2D box filter,有效地缓解了走样和膨胀问题。研究者根据评估,包括在单尺度图像上训练和多尺度测试等场景,验证了这种方法的有效性。

最佳学生论文亚军

  • 论文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

  • 作者:Paul Roetzer 、Florian Bernard

  • 机构:波恩大学

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

图片

  • 论文:Image Processing GNN: Breaking Rigidity in Super-Resolution

  • 作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

  • 机构:北京大学华为诺亚方舟实验室

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

图片

  • 论文:Objects as volumes: A stochastic geometry view of opaque solids

  • 作者:Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas

  • 机构:卡耐基梅隆大学

  • 链接:https://arxiv.org/pdf/2312.15406v2

图片

  • 论文:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

  • 作者:Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin

  • 机构:俄勒冈州立大学

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

图片

其他奖项

大会还公布了 PAMI TC 奖,包括 Longuet-Higgins 奖、青年研究者奖、Thomas S. Huang 纪念奖三项。

图片

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年获奖的论文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。

图片

  • 作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik

  • 机构:UC 伯克利

  • 论文链接:https://arxiv.org/abs/1311.2524

青年研究者奖

青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。

今年获奖者为 Angjoo Kanazawa(UC 伯克利)和 Carl Vondrick(哥伦比亚大学)。

图片

另外,Katie Bouman(加州理工学院)获得了青年研究者奖荣誉提名。

图片

Thomas Huang 纪念奖

在 CVPR 2020 上,为了纪念 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。

今年的获奖者是牛津大学教授 Andrea Vedaldi。

图片

更多信息可参考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf

参考链接:

https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2

入门CVPR 2024
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Li Dong人物

现任职于爱丁堡大学语言认知计算中心(ILCC),研究兴趣:缔结结构化数据和文本之间的桥梁。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
暂无评论
暂无评论~