2022/06/04 12:27

蛋酱编辑

2021 ACM博士论文奖公布，两位NeRF提出者获荣誉提名

近日，新一届 ACM 博士论文奖正式公布。哈佛大学博士后研究员 Manish Raghavan 因其在「理解算法决策及其社会影响」方面的贡献获得了 2021 年度 ACM 博士论文奖。同时，最新一届的荣誉提名奖授予了斯坦福大学的 Dimitris Tsipras，以及谷歌研究院的 Pratul Srinivasan、Benjamin Mildenhall 二人，他们是神经辐射场 (NeRF) 表征、相关算法和理论的提出者。

ACM 博士论文奖每年颁发一次，旨在奖励计算机科学与工程领域最佳的博士论文的作者。博士论文奖的奖金为 2 万美元，荣誉提名奖的奖金总共有 1 万美元。

2021 年 ACM 博士论文奖

Manish Raghavan 因其论文《算法决策的社会影响》获得 2021 年 ACM 博士论文奖，据官方公告，该论文对理解算法决策及其社会影响做出了重大贡献，包括关于算法偏见和公平性问题的基础性成果。

Raghavan 现在是哈佛计算与社会研究中心的博士后研究员。他的主要兴趣是将计算技术应用于社会关注的领域，包括算法公平和行为经济学，特别关注在招聘渠道中使用的算法工具。此前，Raghavan 在加州大学伯克利分校获得了电气工程和计算机科学学士学位，在康奈尔大学获得了计算机科学硕士学位和博士学位。

算法公平性是人工智能中的一个领域，尽管处于职业生涯的早期阶段，但 Raghavan 一直是塑造这一研究方向和重点的领军人物之一。

在这篇获奖博士论文中，Raghavan 从多个维度讨论了算法决策的社会影响。第二部分讨论了利用理论模型来解决算法决策带来的挑战以及克服这些挑战的潜在途径；第三部分讨论了行为模型以更好地理解算法和人类决策之间的相互作用；第四部分探索了这些洞察如何在实践中体现，并研究了在就业和信用评分情况下的应用；第五部分总结了未来研究的一些开放方向。

论文链接：

https://ecommons.cornell.edu/bitstream/handle/1813/110626/Raghavan_cornellgrad_0058F_12490.pdf?sequence=1&isAllowed=y

NeRF 提出者获荣誉提名奖

2021 年 ACM 博士论文奖的荣誉奖分别由斯坦福大学的 Dimitris Tsipras 以及谷歌研究院的 Pratul Srinivasan、Benjamin Mildenhall 获得。

Dimitris Tsipras 的论文《Learning Through the Lens of Robustness》因其在对抗性鲁棒性机器学习研究和构建用于训练可信机器学习模型的高效工具方面的基础贡献而受到认可。

Dimitris Tsipras 是斯坦福大学的博士后学者。他的研究重点是理解和提高机器学习系统在面对现实世界时的可靠性。Tsipras 毕业于雅典国立技术大学的电气和计算机工程系，并在麻省理工学院取得计算机科学硕士和博士学位。

Tsipras 的研究做出了多项开创性贡献，推动了当今 ML 面临的最大挑战之一的解决：让 ML 真正为实际部署做好准备。

论文链接：https://dspace.mit.edu/handle/1721.1/140148

Pratul Srinivasan 和 Benjamin Mildenhall 因提出神经辐射场 (NeRF) 表征、相关算法和理论以及将其成功应用于视图合成问题，共同获得了本届荣誉提名奖。

论文链接：https://arxiv.org/pdf/2003.08934.pdf

NeRF 的提出激发了大量的后续研究，相关出版物在计算机图形学文献中实现了增长极快的引用率，迄今引用量已破千。

ACM 官方公告表示，Srinivasan 的论文《深度学习视图合成的场景表征》和 Mildenhall 的论文《视图合成的神经场景表征》解决了计算机视觉和计算机图形学中一直以来悬而未决的问题。该问题在视觉中称为「视图合成」，在图形中称为「非结构化光场渲染」，涉及仅拍摄场景的少量照片并从任何中间视点预测新图像。

Pratul Srinivasan 是谷歌的一名研究科学家，专注于计算机视觉、计算机图形学和机器学习交叉领域的问题。他在杜克大学获得生物医学工程学士学位和计算机科学学士学位，在加州大学伯克利分校获得计算机科学博士学位。

论文链接：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-214.pdf

从图像中重建逼真的场景表征一直是计算机视觉和图形学的一个长期目标，以往研究通常使用来自标准计算机图形学 pipeline 的表征来解决，如三角网格（triangle mesh），但这一方法不太适合端到端的优化，从而影响了最大限度地提高渲染图像的逼真度。

Srinivasan 的博士论文《Scene Representations for View Synthesis with Deep Learning》探讨了三维场景如何表征的问题，这样的表征可以有效地估计从标准的照片，然后可以用来从新的不可观测的视角合成同一场景的图像。

最近，Srinivasan 一连七项关于 NeRF 的研究入选了 CVPR 2022，其中五篇 Benjamin Mildenhall 也参与了研究。

Benjamin Mildenhall 是谷歌研究院的一名研究科学家，主要研究计算机视觉和图形方面的问题。他在斯坦福大学获得了计算机科学和数学学士学位，在加州大学伯克利分校获得计算机科学博士学位。

视图合成是指使用一组给定的输入图像从新的视角渲染场景。最近的一些方法结合了深度学习和立体渲染技术来获得逼真的图像质量。然而，这些方法依赖于密集的 3D 网格表征，只允许少量的本地相机运动，且很难扩展到高分辨率。

论文链接：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-223.pdf

Mildenhall 的博士论文《Neural Scene Representations for View Synthesis》提出了一种新的基于神经辐射场的视图合成方法，该方法可以高效地将场景表征为由神经网络权值参数化的连续函数。

参考链接：https://awards.acm.org/doctoral-dissertation

理论博士论文奖

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心