Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

自由编辑人脸打光:基于生成模型的三维重光照系统上线

真实人脸的三维建模、合成与重光照是计算机图形学领域中具有较高应用价值的研究方向。受限于人脸的复杂皮肤组织结构,对于光照效果的准确计算往往依赖前置精细的几何材质建模,以及复杂的光路模拟,需要较高的硬件成本与计算时间开销。

现有方法在消费级硬件上已经成功地利用隐式生成网络快速合成超真实感三维人脸,从中隐式解耦出光照的想法由于只需要较低的硬件成本与可以实现高质量的真实效果成为了潜在的研究方向。但是,光影效果与材质之间存在很强的歧义性问题,在保证生成网络的多样性情况下,很难采集到大量真实数据去解决光影与材质之间的歧义性。

而发表在计算机图形学顶级期刊 ACM Transactions on Graphics (ToG) 上的 NeRFFaceLighting [1] 即在隐式解耦人脸光照方向,利用生成模型学习到的分布先验,实现了真实光影的解耦。

NeRFFaceLighting 构建了一个解耦了光影控制的三维人脸生成模型。在确定了人脸的几何和材质之后,用户只需要给定期望的光影效果和相机视角,即可以实时生成对应的人脸图像。

基于该方法的三维人脸重光照系统,即使用户不熟悉三维建模以及光照模型,也可以轻松的从二维真实人脸图像中恢复出三维人脸模型,并对光影效果进行适当的调整。先来看看使用 NeRFFaceLighting 的效果!

图片

图 1 使用 NeRFFaceLighting 系统对输入的真实人脸图像重光照效果

图片

图 2 NeRFFaceLighting 更多的重光照效果

Part I

背景

近些年,随着神经辐射场 [2] 与对抗式生成网络 [3] 的结合,各种高质量、快速渲染的三维人脸生成网络被提出,其中包括 EG3D [4]。

图片

图 3 EG3D 的不同视角的生成效果与几何表示

该方法的三平面表示结合了传统的二维对抗式生成网络和最新的三维隐式表征,因此继承了 StyleGAN [5] 的强大生成能力和神经辐射场的表征能力。但是,这些生成模型本身是无条件生成,并不能对人脸的光影进行解耦控制。

已有工作有的通过对三维人脸生成网络隐空间中隐变量编辑的方式实现三维人脸光影控制,但是难以保证超出人脸区域的几何一致性。另一些工作通过显式光影模型与固定几何建模可以实现几何一致性较好的三维人脸重光照,但是真实感不够。

为了解决上述的问题,NeRFFaceLighting 分解了三平面表示为几何材质三平面和光影三平面来保证光影编辑时的几何材质一致性,并且通过条件判别器监督光影效果的真实性。在基于这种网络隐式生成的几何材质与光影分解表示的基础上,NeRFFaceLighting 充分利用了对抗式生成网络从稀疏的数据集中学到稠密空间的能力,约束单个生成样本表现出数据集整体分布特点,来消解这种隐式几何、材质与光影分解的歧义性。因而,在训练好了解耦光影控制的三维人脸生成网络之后,NeRFFaceLighting 额外训练了一个编码器将真实人脸编码到生成网络,从而实现真实的光影控制和新视角生成。

Part 2

NeRFFaceLighting 的算法原理

在原本的三平面生成器基础上,NeRFFaceLighting 附加了两层合成块,用于在合成了原本的三平面之后合成光影三平面,作为独立的光影表示。此外,描述光照条件的二阶球谐光照系数通过映射网络变为中间光影隐变量之后,作为条件指导光影三平面的生成。从而,在仅改变光影隐变量时,原本的三平面保持不变,而光影三平面发生变化;原本的三平面被认为是包含除光影之外的,也即几何与材质的信息。原本的隐空间也被认为是几何与材质的隐空间。

给定几何与材质三平面和光影三平面之后,原本的解码器从几何与材质的三平面中采样的特征解码出密度 σ 和反照率 a(对应于原本的颜色,但是赋予了不同的含义),而新构建的光影解码器从光影三平面中采样的特征解码出光影 s,最终的颜色由 c=s∙a 给出。通过体渲染,密度与反照率组合构成反照率图,而密度与颜色组合构成最终的人脸图像。

人脸图像被送入图像判别器和光影判别器中判别真伪,其中图像判别器是原本的判别器,而光影判别器是输入二阶球谐光照系数作为条件的。因此,NeRFFaceLighting 使用 DPR [6] 对真实人脸数据集 FFHQ 中每张人脸标注了光影条件。

整体网络结构如下图所示:

图片

图 4 NeRFFaceLighting 的网络架构

除此之外,隐式分解几何、材质和光影本身是具有歧义性的,因为野外采集的大规模真实人脸图像是不包含同一个人,不同光影状况下的多张图片的,所以无法保证网络没有把材质建模为光影,或者是把光影建模为材质。

针对光影信息残留在材质表示中的问题,NeRFFaceLighting 观察到对抗式生成网络具有从稀疏数据集学习到稠密生成空间的能力,即对于一个生成样本,生成网络可以轻松生成具有相同几何与不同材质和光影效果的其他样本,并且这些几何相同的其他样本的光影效果往往与数据集的光影效果分布近似,即便材质并不相同。又观察到一个充分的大规模数据集中光影分布是呈中心对称,即光影分布的均值即为未知的无光影状态,NeRFFaceLighting 提出利用这些几何相同的样本来互相提供监督,约束每个样本的材质中残留的光影信息趋于均值,即无残留光影的状态,从而间接约束光影的效果准确。(具体的分析和解释可以见论文的补充材料。)

另外,NeRFFaceLighting 还强化了隐式光影模型对数据集中未知光影效果泛化能力以及减轻材质信息建模到光影表示中的可能。(具体的细节请见论文。)约束流程如下图所示:

图片

图 5 几何、材质与光影分解有效性约束策略

最后,NeRFFaceLighting 使用 Encoder-For-Editing [7] 作为基线模型,使用了一些额外的约束来训练一个编码器,将真实图像编码到生成器的几何与材质隐空间中,再结合 Pivotal Tuning Inversion [8] 实现真实图像的准确三维重建。在此之后,即可通过给定二阶球谐系数与相机视角的方式,来实现新视角重光照了。

Part 3

效果展示与实验对比

使用 NeRFFaceLighting,可以对生成出来的三维人脸进行光影控制(请注意 (a) 中额头的高光;(b) 中眼镜打在脸上的阴影;(c) 中头发的光影;(d) 中脖子上的阴影):

图片

图 6 三维人脸光影控制(反照率被放置在了人脸图像右下边作为参考)

这里展示对几何和材质隐空间,和光影隐空间分别进行插值

图片

图 7 三维人脸几何与材质隐变量插值效果,以及光影隐变量插值效果

除此之外,这里展示了引入的分解有效性训练策略引起的光影与材质歧义性消解:

图片

图 8 反照率在训练前和训练后的结果对比(注意,因为是生成模型,所以人脸身份信息会不一样)

最后,结合编码器,可以实现真实二维人脸图像的三维重建以及重光照:

图片

图 9 真实人脸图像重光照效果:从二维人脸图像中重建三维人脸模型,并进行重光照

NeRFFaceLighting 在生成质量和多样性上,通过 Frechet Inception Distance [9] 与其他方法进行了对比,如表 3-1 所示达到了最好的结果;在光照准确性和稳定性上,通过 DECA [10] 预测面部区域的光照系数(不考虑头发、脖子等区域)与其他方法进行了对比,如表 3-2 所示达到了较好的结果,DisCoFaceGAN [11] 和 3DFaceShop [12] 由于有对应的 3DMM 真值监督,指标更好,但很难在保持几何一致性的情况下,在非面部区域也取得逼真的光影效果。

图片

表 3-1 生成模型质量和多样性对比。

图片

表 3-2 重光照准确性和稳定性对比。加粗了第一的指标,用下划线标注了第二的指标,和双下划线标注了第三的指标。

Part 4

结语与致谢

数字内容生成在工业制作和数字媒体领域有着广泛的应用,尤其是虚拟数字人的生成与编辑,在近期受到了广泛的关注,而三维人脸光影的解耦真实编辑就是该领域的一个重要问题。解决该问题促进了下游二维真实人脸图像新视角合成和重光照的应用。

NeRFFaceLighting 系统通过对三维人脸生成网络进行光照解耦设计,可以对三维人脸(包括头发、脖子等)进行不依赖显式光影模型的实时重光照,NeRFFaceLighting 的论文已经被计算机图形学顶级刊物 ACM Transactions on Graphics 录用。

目前,NeRFFaceLighting 已经提供在线服务供大家使用。在线系统由中国科学院计算技术研究所信息高铁云函数平台提供底层计算服务支持,由中科南京信息高铁研究院提供底层算力及工程服务支持。

在线服务链接:http://geometrylearning.com/NeRFFaceLighting/interface

  • 有关论文的更多细节,请浏览项目主页:http://www.geometrylearning.com/NeRFFaceLighting/

  • 论文地址:https://dl.acm.org/doi/pdf/10.1145/3597300

  • 视频地址:https://www.bilibili.com/video/BV1NM411G7n5

  • 代码地址:https://github.com/IGLICT/NeRFFaceLighting

参考文献

[1] Kaiwen Jiang, Shu-Yu Chen, Hongbo Fu, Lin Gao*. 2023. NeRFFaceLighting: Implicit and Disentangled Face Lighting Representation Leveraging Generative Prior in Neural Radiance Fields. ACM Transactions on Graphics.

[2] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. 2021. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. Commun. ACM 65, 1 (dec 2021), 99–106.

[3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative Adversarial Nets. In Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K.Q. Weinberger (Eds.), Vol. 27. Curran Associates, Inc. 

[4] Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini de Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, and Gordon Wetzstein. 2022. Efficient Geometry-aware 3D Generative Adversarial Networks. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 16102–16112. 

[5] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. 2020b. Analyzing and Improving the Image Quality of StyleGAN. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 8107–8116. 

[6] Zhou Hao, Sunil Hadap, Kalyan Sunkavalli, and David W. Jacobs. 2019. Deep single-image portrait relighting. In 2019 IEEE/CVF International Conference on Computer Vision. 7194-7202.

[7] Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, and Daniel Cohen-Or. 2021. Designing an Encoder for StyleGAN Image Manipulation. ACM Trans. Graph. 40, 4, Article 133 (jul 2021), 14 pages. 

[8] Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or. 2022. Pivotal Tuning for Latent-Based Editing of Real Images. ACM Trans. Graph. 42, 1, Article 6 (aug 2022), 13 pages. 

[9] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 2017. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. In Advances in Neural Information Processing Systems, I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Eds.), Vol. 30. Curran Associates, Inc. 

[10] Yao Feng, Haiwen Feng, Michael J. Black, and Timo Bolkart. 2021. Learning an Animatable Detailed 3D Face Model from In-the-Wild Images. ACM Trans. Graph. 40, 4, Article 88 (jul 2021), 13 pages. 

[11] Yu Deng, Jiaolong Yang, Dong Chen, Fang Wen, and Xin Tong. 2020. Disentangled and Controllable Face Image Generation via 3D Imitative-Contrastive Learning. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 5153–5162. 

[12] Junshu Tang, Bo Zhang, Binxin Yang, Ting Zhang, Dong Chen, Lizhuang Ma, and Fang Wen. 2022. Explicitly Controllable 3D-Aware Portrait Generation. arXiv preprint arXiv:2209.05434 (2022).

Geometry Learning
Geometry Learning

本专栏将致力于分享3D AIGC,神经辐射场建模,大尺度几何变形建模、几何生成模型等最新前沿研究和技术,探索深度学习在计算机图形学及计算机视觉领域的创新应用。

http://www.geometrylearning.com/cn/
理论NeRFFaceLighting
相关数据
Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

Sepp Hochreiter人物

Sepp Hochreiter 是一名德国计算机科学家。 1991 年,Sepp Hochreiter 发表了德语论文,探讨了循环神经网络的梯度随着序列长度增加倾向于消失或爆炸。与 Yoshua Bengio 的相关工作几乎同时,并且开发了 LSTM 的雏形。

相关技术
计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

Ting Zhang人物

微软亚洲研究院视觉计算小组副研究员,2017年获中国科学技术大学博士学位,研究兴趣集中在计算机视觉的深度学习上。

人脸生成技术

人脸生成是从现有数据集生成(或插值)新面孔的任务。

暂无评论
暂无评论~