按部就班 vs. 好奇心驱动,哪个更容易出研究成果?
Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他没有用过高斯泼溅方法。事实上,他当时正在研究另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技术。他喜欢在业余时间尝试新事物并研究新的模型。
3DGS(3D Gaussian Splatting)是当时的新技术。简而言之,它可以从几个输入图像中生成逼真的新视角,比 NeRF 和之前的其他方法更快。但 Zehao 对在超出训练姿态分布时渲染的表现感到困惑。这些渲染效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这个方法是否够好,是否值得发表。
在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的主要原因是低通滤波器。在使用泼溅方法进行渲染时,低通滤波器是非常常见的。但当它应用于优化框架(从多视图图像重建)时,它会引入一种偏置,使得真实的 3D 高斯变小(因为滤波器在渲染过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但我们不能简单地抛弃低通滤波器,因为这样就无法实现抗锯齿。
我的解决方案非常简单:1)我们应该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」
时间非常紧张:从想法到 CVPR 截止日期只有 1 个月。通常这种努力不会顺利进行,因为剩下的时间太少,无法进行论文润色或实验。但 Zehao 坚信他甚至可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最佳学生论文奖。我们非常感谢社区、评审、领域主席和奖项委员会对这个小小想法的认可。
研究往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的想法。用未曾设计过的方式测试现有模型。不断前进。这就是每个研究人员的核心:好奇心。试图探究事物的本质。深入了解它们,从而(有时在不经意间非常意外地)做出新发现。