Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

导师爆料:这篇CVPR最佳学生论文,从想法到成稿只用一个月,源自业余灵感

按部就班 vs. 好奇心驱动,哪个更容易出研究成果?  


CVPR 2024 的最佳学生论文,竟然是用一个月的时间写出来的。

北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。其中,获得最佳论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。

据 Mip-Splatting 论文一作 Zehao Yu 的导师、图宾根大学教授 Andreas Geiger 透露,这篇论文从想法公布到成稿,只用了一个月的时间。
图片
而且,他还提到,Zehao Yu 之前参与过多个项目,并发表过自己的论文。但在 Mip-Splatting 项目之前,他从未接触过高斯泼溅技术,对于高斯泼溅的入门也是在业余时间以个人兴趣的形式展开的。这让他不禁感叹,「研究是高度非线性的,往往很难规划,这正是它令人生畏的地方,同时也令人兴奋。我们必须接受这一点。」
 
Mip-Splatting 论文的完整标题是「Mip-Splatting: Alias-free 3D Gaussian Splatting」。在论文中,Zehao Yu 等人介绍了一种用于 3D 图像渲染的抗锯齿 3D 高斯泼溅方法 ——Mip-Splatting。

3D 图像渲染是指生成三维图像的过程。想象一下电脑游戏中的那些逼真的场景或动画电影中的角色,它们都是通过渲染技术从一堆数据变成我们看到的图像。

计算机图形学中,锯齿(alias)是指图像边缘出现的锯齿状不平滑现象(见下图)。抗锯齿技术就是用来消除这些锯齿,使图像边缘看起来更加平滑和自然,近几年颇受关注的高斯泼溅就是这样一种技术。它利用高斯分布来平滑图像边缘,从而减少锯齿效应,使得图像更为平滑和自然。
图片
在回顾 Zehao Yu 和他的研究历程时,Andreas Geiger 提到:

Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他没有用过高斯泼溅方法。事实上,他当时正在研究另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技术。他喜欢在业余时间尝试新事物并研究新的模型。
3DGS(3D Gaussian Splatting)是当时的新技术。简而言之,它可以从几个输入图像中生成逼真的新视角,比 NeRF 和之前的其他方法更快。但 Zehao 对在超出训练姿态分布时渲染的表现感到困惑。这些渲染效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这个方法是否够好,是否值得发表。
在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的主要原因是低通滤波器。在使用泼溅方法进行渲染时,低通滤波器是非常常见的。但当它应用于优化框架(从多视图图像重建)时,它会引入一种偏置,使得真实的 3D 高斯变小(因为滤波器在渲染过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但我们不能简单地抛弃低通滤波器,因为这样就无法实现抗锯齿。
我的解决方案非常简单:1)我们应该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」
时间非常紧张:从想法到 CVPR 截止日期只有 1 个月。通常这种努力不会顺利进行,因为剩下的时间太少,无法进行论文润色或实验。但 Zehao 坚信他甚至可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最佳学生论文奖。我们非常感谢社区、评审、领域主席和奖项委员会对这个小小想法的认可。

图片

                                         Mip-Splatting 与其他方法的效果对比。
图片
论文链接:https://arxiv.org/pdf/2311.16493

一个简单的想法,用了短短一个月就写成了论文,还拿到了 CVPR 最佳学生论文奖,不知其他研究者听到有何感想。

Andreas Geiger 也谦虚得说,这里面有运气的成分(有人可能认为这篇论文是增量式创新),评审的结果也未必 100% 公平。但他之所以分享这段经历,只是想要表达:

研究往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的想法。用未曾设计过的方式测试现有模型。不断前进。这就是每个研究人员的核心:好奇心。试图探究事物的本质。深入了解它们,从而(有时在不经意间非常意外地)做出新发现。

写到这里,他还推荐了苹果高级科学家 Vladlen Koltun 在 CVPR 2018 年的一个演讲,主题是「Doing (Good) Research」。(演讲链接:https://www.youtube.com/watch?v=4LEZED1YXm0&t=1420s)

不过,他也指出,在现行的科研系统中,科学家要通过提交研究计划、 撰写资助申请书来获取研究项目资金,这和好奇心驱动的研究理念很不相称,尤其是在 AI 这样一个快速发展的领域。

「你很少能制定出一个精确的 3 年甚至 5 年愿景,并完全按照这个愿景行事。更有可能的情况是,在研究过程中会出现一些有趣的相关研究问题,这些问题值得研究,你不应该因为它们与你最初的研究计划不完全一致而不去研究它们。」Vladlen Koltun 写到。但对此,他也没有很好的解决方案。

最后介绍一下论文一作 Zehao Yu。他本科毕业于厦门大学,之后在上海科技大学拿到了硕士学位,2021 年前往德国图宾根大学读博。他的研究重点是计算机视觉机器学习,特别是 3D 视觉(深度估计、平面检测、多视图立体视觉、3D 重建、3D 人体建模)。
图片
个人主页:https://niujinshuchong.github.io/

参考链接:https://www.facebook.com/andreas.geiger.395
工程CVPR 2024
相关数据
计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

推荐文章
暂无评论
暂无评论~