2024/02/15 15:56

ICLR 2024 | 单图三维重建数字虚拟人，浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中，看到了 AIGC 让单张照片开口说话的能力？尽管已经能够拥有清晰的画质和准确的口型，但现有的单图驱动虚拟人似乎还差了一点：呈现的结果中说话人往往采用和原图中说话人接近的头部姿态，无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模，因此在大姿态驱动的情况下会出现效果急剧下降的问题。

单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)，随后根据一段输入的语音或动作表征来控制三维化身，进而合成支持大姿态驱动的真实说话人视频。然而，要实现这个目标，学界面临两个主要挑战：（1）无法实现准确的三维化身重建以及稳定的动态人脸控制；（2）现有工作主要关注人脸部分的合成，但忽视了如何生成自然的躯干和背景部分。

为实现高质量、逼真的单图 3D 说话人视频合成，浙江大学与字节跳动提出了 Real3D-Portrait 算法，被人工智能顶级会议 ICLR 2024 录用为 Spotlight。目前已开放源代码和预训练权重。

论文标题：Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
论文链接：https://arxiv.org/pdf/2401.08503.pdf
项目主页：https://real3dportrait.github.io/
代码链接：https://github.com/yerfor/Real3DPortrait

话不多说直接看效果，仅需输入单张照片也可以得到如真人一般自由运动的虚拟人视频。

模型内在技术原理

深悉 Real3D-Portrait 模型的内在原理，还要回到开头提到的两个问题：（1）如何准确地为输入图片中的人物进行三维化身重建和稳定地动态人脸控制；（2）如何合理地建模自然的躯干运动和背景画面。

对于第一个问题，团队从网络结构和训练流程两个角度进行了创新。在网络结构层面，设计了一个 Image-to-Plane 模型和一个 Motion Adapter 模型。具体来说，Image-to-Plane 模型的任务是在网络推理的过程中完成目标人物的三维重建，将输入图像转换为 Tri-plane（一种通用的 3D 表征）；而 Motion Adapter 的任务是预测完成目标表情所需要对三维化身所做的最小几何修改，以达到控制 3D avatar 表情的目的。由于这两个模块承担了大量跨坐标系变换的工作（比如将图片中的人物映射到本征的三维空间），研究者大量使用了视觉 Transformer 结构。在训练流程层面，为了保证三维化身重建的精确度和鲁棒性，研究团队设计了预训练和微调两阶段流程。

「我们发现 3D 人脸生成模型可以生成海量的高质量、多视角静态人脸数据，于是首先让模型从其中蒸馏学习三维化身重建的几何知识，随后再在视频数据集上微调学习控制其面部表情」，研究团队表示。

^{图 1. 利用 3D 人脸生成模型对 Image-to-Plane 模型进行预训练以学习三维重建知识}

^{图 2. 在视频数据集上对模型进行微调以学习控制三维化身的表情}

在完成动态 3D 人脸建模后，团队提出了 Head-Torso-Background Super-Resolution （HTB-SR）Model，以完成对躯干部分和背景画面的合理建模，并最终生成 512x512 分辨率的高清图像。HTB-SR 模型的设计采取了分而治之的思想，即针对不同部分的运动特性，采用不同的技术进行建模，并最终通过 alpha-blending 技术将各个部分融合成为完整的图像。具体来说，说话人的头部往往存在偏转、横滚等需要三维空间感知的运动，因此使用前文所述的 Image-to-Plane 模型对其进行建模。与头部的复杂运动相比，躯干部位的运动基本可以用简单的二维画面内的平移、拉伸实现，因此使用目前单图驱动虚拟人领域常用的图像扭曲场（Warping Field）对躯干部分进行建模。

此外，为了保证输出的说话人图像能够和背景无缝地贴合，团队额外设计了一个基于简单卷积网络的 Background Branch 对输入图像的背景部分进行建模。为了支持语音驱动的虚拟人合成任务，团队还基于 GeneFace 的语音驱动模块设计了适用于任意说话人的通用语音转动作（Audio-to-Motion）生成模型。最终，Real3D-Portrait 模型的推理框架图如下图所示，仅需单张图片，即可实现逼真的说话人视频合成，同时支持语音和视频作为驱动条件。

^{图 3. Real3D-Portrait 模型的整体推理流程}

模型的应用前景

总体来看，Real3D-Portrait 模型首次实现了利用先进的单图三维重建技术支持大幅度姿态运动的单图驱动虚拟人视频合成。可以预见的是，随着技术的不断迭代、普及，在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 Real3D-Portrait，单图驱动的虚拟人算法有望使说话人在 2D/3D 的画面中更真实地「动起来」。

从技术的角度看，随着以 Vision Pro 为代表的空间计算平台的兴起，能够合成三维化身的虚拟人算法或将成为大势所趋，而 Real3D-Portrait 模型则为后续基于三维化身的单图驱动虚拟人算法研究提供了参考。但现阶段 Real3D-Portrait 也并不是完美无缺的，可能是由于数据量较小和样本质量问题，对于在输入图像中被遮挡的区域（如牙齿、侧脸等），模型有时难以产生清晰准确的结果。

总而言之，过去几年，随着单图驱动虚拟人技术的不断进步，口型精度、图像质量已然不断提高；而 Real3D-Portrait 模型的提出，进一步解锁了单图驱动虚拟人的运动自由度，其重建三维化身的特性也赋予了其应用在空间视觉产品的可能性。让我们一同期待虚拟人技术的加速发展，用户也将获得更加极致的视觉体验和生活便利。

产业ICLR 2024Real3D-Portrait

相关数据

字节跳动机构

北京字节跳动科技有限公司成立于2012年，是最早将人工智能应用于移动互联网场景的科技企业之一，是中国北京的一家信息科技公司，地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端，通过海量信息采集、深度数据挖掘和用户行为分析，为用户智能推荐个性化信息，从而开创了一种全新的新闻阅读模式

https://bytedance.com

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

虚拟现实技术

虚拟现实，简称虚拟技术，也称虚拟环境，是利用电脑模拟产生一个三维空间的虚拟世界，提供用户关于视觉等感官的模拟，让用户感觉仿佛身历其境，可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时，电脑可以立即进行复杂的运算，将精确的三维世界视频传回产生临场感。

来源：维基百科

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式（或特征）的任务。

来源：paperswithcode

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

Audi机构

奥迪是一间德国跨国豪华汽车制造商，主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起，是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息（形状等）的数学过程和计算机技术。

来源：wiki

人脸生成技术

人脸生成是从现有数据集生成（或插值）新面孔的任务。