AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力,他们专注于视频生成以及3D/4D场景生成与重建的研究,致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。
论文地址: https://arxiv.org/abs/2412.12091
项目主页:https://snap-research.github.io/wonderland/
![图片](https://image.jiqizhixin.com/uploads/editor/2a2e462c-28e9-45e1-b52a-093c31cbd01d/640.png)
向视频扩散模型中嵌入 3D 意识:通过向视频扩散模型中引入相机位姿控制,Wonderland 在视频 latent 空间中嵌入了场景的多视角信息,并能保证 3D 一致性。视频生成模型在相机运动轨迹的精准控制下,将单张图像扩展为包含丰富空间关系的多视角视频。
双分支相机控制机制:利用 ControlNet 和 LoRA 模块,Wonderland 实现了在视频生成过程中对于丰富的相机视角变化的精确控制,显著提升了多视角生成的视频质量、几何一致性和静态特征。
大规模 latent-based 3D 重建模型(LaLRM):Wonderland 创新地引入了 3D 重建模型 LaLRM,利用视频生成模型生成的 latent 直接重构 3D 场景(feed-forward reconstruction)。重建模型的训练采用了高效的逐步训练策略,将视频 latent 空间中的信息转化为 3D 高斯点分布(3D Gaussian Splatting, 3DGS),显著降低了内存需求和重建时间成本。凭借这种设计,LaLRM 能够有效地将生成和重建任务对齐,同时在图像空间与三维空间之间建立了桥梁,实现了更加高效且一致的广阔 3D 场景构建。
![](https://image.jiqizhixin.com/uploads/editor/ac1901c7-b850-4e17-8a2d-4766fb462d8d/1736230482889.png)
![](https://image.jiqizhixin.com/uploads/editor/0fc2e199-124e-4766-bb35-82f2f1886551/1736230498529.png)
![](https://image.jiqizhixin.com/uploads/editor/defaed31-b1cd-4754-bd96-c9c3270bb6fe/1736230515961.png)
![](https://image.jiqizhixin.com/uploads/editor/33ef67c9-662e-41fe-b87e-6ce88349d855/1736230533371.png)
![图片](https://image.jiqizhixin.com/uploads/editor/02aa90bf-43c3-4026-ac0b-7e3e3c199902/640.png)
![](https://image.jiqizhixin.com/uploads/editor/98114c44-0ba7-471f-aa74-3100be960795/1736230566240.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3389b299-1c3b-4485-aa3a-f02186f81ba8/640.png)
![](https://image.jiqizhixin.com/uploads/editor/0d8c3e1c-01b8-4748-bb31-13e4c4a6ebb8/1736230597915.png)
![图片](https://image.jiqizhixin.com/uploads/editor/866e8a92-2b35-492f-a915-ce78892bbf28/640.gif)
![图片](https://image.jiqizhixin.com/uploads/editor/30d1ce0d-cab0-4b11-8d48-48ef2bb15a1d/640.gif)
![图片](https://image.jiqizhixin.com/uploads/editor/c938a5e5-4545-4f4d-b6f0-ba7e918644c6/640.gif)
(以下展示均为从建立的3DGS Rendering出的结果)
![图片](https://image.jiqizhixin.com/uploads/editor/f654da75-7acb-4d31-b933-8aa2738378b6/640.gif)
![图片](https://image.jiqizhixin.com/uploads/editor/a00c1a04-2b05-402f-8fb7-7cf2a4619c49/640.gif)
![图片](https://image.jiqizhixin.com/uploads/editor/31a6b2b9-5391-4c2b-a957-3beba54a9a6c/640.gif)
![图片](https://image.jiqizhixin.com/uploads/editor/f5e7dc7f-0c59-47a4-a8a6-aa9395c16fd6/640.gif)
![](https://image.jiqizhixin.com/uploads/editor/1f787656-6488-4276-9ae6-420aadba1828/1736230632811.png)
![](https://image.jiqizhixin.com/uploads/editor/9cad43e3-c585-46ab-a50c-a0c34a15f6de/1736230666488.png)
![](https://image.jiqizhixin.com/uploads/editor/0707fee0-7c83-46e8-88b5-d27c0d33cf31/1736230688935.png)
![](https://image.jiqizhixin.com/uploads/editor/d34be822-dabc-4877-93b3-4b6fba9ef2db/1736230722186.png)
双分支相机条件策略:通过引入双分支相机条件控制策略,视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉,且相较于现有方法达到了更精确的姿态控制。
Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland 可进行高效的 3D 场景前向重建,在多个基准数据集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 场景重建质量均优于现有方法。
广覆盖场景生成能力:与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同,Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性,还具有很强的泛化性,能处理 out-of-domain 的场景。
超高效率:在单张图像输入的问题设定下,利用单张 A100,Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍,相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。