Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与魔王 蛋酱 杜伟

「为可微计算机图形学奠定基础」,太极二作李子懋获SIGGRAPH最佳博士论文奖,华人连续三年获此殊荣

​刚刚,顶级计算图形学机构 ACM SIGGRAPH 颁发了 2020 年最佳博士论文奖。MIT CSAIL 博士后研究员、太极(Taichi)论文第二作者李子懋(Tzu-Mao Li)获得该奖项。SIGGRAPH 颁奖词中称他的博士论文「为新兴的可微计算机图形学奠定了基础」。

在这篇 148 页的博士论文中,李子懋探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算机图形学和图像处理算法与现代数据驱动方法相结合,从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外,他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。

该论文的主题是解决计算和应用复杂图形学 pipeline 导数所面临的挑战,以便利用这些导数更好地拟合和采样参数或者解决逆问题(inverse problem)。这项研究被认为「解决了图形学算法中的不连续性以及现代硬件的大规模并行性问题,其贡献远远超出了传统的自动微分」。

在颁奖词中,SIGGRAPH 称该论文「为新兴的可微计算机图形学研究领域奠定了基础」,李子懋是「物理可微渲染领域的先行者」。

这篇论文的主要贡献包括以下三项:
  • 首先,它推导并实现了首个全面的可微渲染解决方案,该方案可以正确计算涉及任意场景参数(如相机姿态、场景几何、材料和光照)的渲染图像上标量函数的导数。这使得多种图形学和视觉算法能够使用导数分析图像的 3D 属性,包括 3D 重建和对抗样本生成。

  • 其次,论文的另一项贡献是提出了一个领域特定的自动微分编译器,它基于 Halide 编程语言构建,用于微分图像处理算法。该编译器只需研究人员付出很少的编程努力,即可以高性能自动生成复杂图像处理算法的梯度。这就为使用灵活构造块开发高效准确的数据驱动图像处理算法开辟了新的路径,与深度学习中常用的粗粒度算子形成鲜明对比。

  • 最后,该论文提出了首个 MCMC(马尔可夫链蒙特卡罗)渲染算法,该算法使用光路吞吐量的二阶导数,来加速移动焦散或光滑材料多反射照明等高难度特效的渲染进程。具体来说,该研究使用光传输贡献的 Hessian 矩阵来捕获被积函数的强各向异性(anisotropy)。

获奖博士论文

现在我们来看这篇博士论文《Differentiable Visual Computing》的具体内容。

论文链接:https://people.csail.mit.edu/tzumao/phdthesis/phdthesis.pdf

计算机图形学、图像处理和深度学习算法的导数在指引参数空间搜索或解决逆问题方面有着广泛的应用。随着算法复杂度不断增加,我们不能只对简单的数学函数进行微分,还需要处理编码复杂数据变换的通用程序。这篇博士论文介绍了三个工具,用来解决获取和应用复杂图算法导数时遇到的挑战。

可微图像处理

传统上,从业者往往只能使用有限数量的粗粒度算子或手动导出的导数来编写程序。该研究利用反向自动微分扩展图像处理语言 Halide,及其自动优化梯度计算的能力。这有助于自动生成任意 Halide 程序的梯度,且性能较高,程序员也无需付出大量精力。

该研究展示了它的多种应用,如该系统能够提升传统前馈图像处理算法的质量,将经典和深度学习方法之间的界限模糊化。

可微蒙特卡洛光线追踪

3D 渲染领域需要与相机参数、光源、几何和外观等参数相关的梯度。但是,梯度计算难度很大,因为渲染积分包括不可微分的 visibility 项。这项研究提出了首个通用可微光线追踪器,它可以解开渲染方程,同时还考虑到了几何不连续性。

该研究还展示了该原型在逆向渲染和神经网络对抗样本生成方面的应用。

新型采样算法:Hessian-Hamiltonian Monte Carlo

最后,这篇论文展示了,光路吞吐量(light path throughput)的二阶导数对于指导前向渲染中的采样也很有用。在 3D 渲染中,模拟光滑材料的多反射效果和运动中的光传输是一件很有难度的事情,因为被积函数具备高维度,且高贡献区域较为狭窄。

该研究扩展了 Metropolis Light Transport 算法,使其适应被积函数的局部形态,从而提升了采样效率。具体而言,Hessian 能够捕获被积函数的强各向异性。该研究借鉴了汉密尔顿蒙特卡洛方法,并模拟泰勒展开,以从高贡献区域中获取样本。

论文结构

这篇论文的结构如下:
  • 论文第二、三章综述了自动微分、优化和采样的背景,及其之间的关系;

  • 第四章解决了基于图像处理算法高效生成导数这一系统挑战;

  • 第五章提出了通用可微分光线追踪器,这是首个计算场景参数渲染积分(rendering integral )梯度的完整解决方案,该方案还能正确地考虑几何不连续性;

  • 第六章展示了马尔科夫链蒙特卡洛渲染算法,该算法通过二阶泰勒展开,自动显式地适应被积函数的局部形态,从而提升采样效率。

李子懋个人简介

李子懋目前是 MIT CSAIL 的博士后研究员,与 Jonathan Ragan-Kelley 共同从事研究工作,此前二人曾在 UC 伯克利有过六个月的合作。

2011 年和 2013 年,李子懋在国立台湾大学获得计算机科学和信息工程的学士和硕士学位,期间曾作为「通信与多媒体实验室图形学小组」的成员,跟随庄永裕教授从事相关研究。之后他前往 MIT,师从 Frédo Durand,并获得计算机科学博士学位。

他的导师 Frédo Durand 是计算机图形学领域的顶尖研究者,在今年初清华大学发布的人工智能全球 2000 位最具影响力学者榜单中,Frédo Durand 被评为计算机图形学领域的 TOP1 学者。此前的计算机图形开源库「Taichi」作者、清华姚班毕业生胡渊鸣也是 Frédo Durand 的学生。

去年 5 月,MIT CSAIL 的胡渊鸣等人开源了名为「太極」的开源计算机图形库,主要面向计算机图形学领域的研究者,提供易于使用的计算机图形学基础架构,并提供了 40 多份计算机图形学重要研究的实现。

2019 年 9 月,该研究团队上传了关于太極的预印版论文,李子懋是第二作者。今年 1 月,李子懋和胡渊鸣等人继续推出了太極的自动微分版本「微分太極」 。他们的导师 Frédo Durand 也参与了这两项工作。

目前,李子懋在计算机图形学方面的多项研究代码均已开源,并在学界和业界产生了广泛的影响,拥有众多使用者,包括 MIT、UC 伯克利、康奈尔大学、布朗大学的研究者,也包括 Adobe、谷歌、Technicolor、InterDigital 等企业研究实验室的开发人员。李子懋在写作该博士论文过程中编写的可微渲染器「redner」目前的下载量已超 10 万次。


上个月,这位年轻的学者也有了最新动向:李子懋将于 2021 年 7 月加入加州大学圣地亚哥分校计算机科学与工程系,担任助理教授。

值得一提的是,这也是华人学者连续三年获得 SIGGRAPH 2020 最佳博士论文奖。去年和前年该奖项由加州大学伯克利分校闫令琪博士和朱俊彦博士摘得。

参考内容:

https://www.siggraph.org/2020-outstanding-doctoral-dissertation-award-tzu-mao-li/

产业SIGGRAPH计算机图形学MIT计算机图形
1
暂无评论
暂无评论~