2025/01/28 13:19

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

在过去的两年里，城市场景生成技术迎来了飞速发展，一个全新的概念 ——世界模型（World Model）也随之崛起。当前的世界模型大多依赖 Video Diffusion Models（视频扩散模型）强大的生成能力，在城市场景合成方面取得了令人瞩目的突破。然而，这些方法始终面临一个关键挑战：如何在视频生成过程中保持多视角一致性？

而在 3D 生成模型的世界里，这一问题根本不是问题 —— 它天然支持多视角一致性。基于这一洞察，南洋理工大学 S-Lab 的研究者们提出了一种全新的框架：CityDreamer4D。它突破了现有视频生成的局限，不再简单地「合成画面」，而是直接建模城市场景背后的运行规律，从而创造出一个真正无边界的 4D 世界。

如果世界模型的终极目标是打造一个真实、可交互的虚拟城市，那么我们真的还需要依赖视频生成模型吗？不妨直接看看 CityDreamer4D 如何突破现有方案，构建出一个真正无边界、自由探索的 4D 城市世界——请欣赏它的生成效果！

想深入了解 CityDreamer4D 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

论文链接：https://arxiv.org/abs/2501.08983
项目链接：https://haozhexie.com/project/city-dreamer-4d/
GitHub链接：https://github.com/hzxie/CityDreamer4D

引言

过去两年，城市场景生成技术取得了突破性进展，生成质量达到了前所未有的高度。这一进步伴随着 “元宇宙” 和 “世界模型” 等概念的兴起，推动了对更真实、更连贯虚拟世界的探索。其中，“世界模型” 致力于在生成的场景中融入物理世界的运行规律，为更具沉浸感的虚拟环境奠定基础。当前主流的世界模型可大致分为四类：

基于视频生成的方法（如 StreetScapes [1] 和 DimensionX [2]）：依托 Video Diffusion Models（视频扩散模型），这些方法能够直接生成高质量的视频场景。然而，尽管扩散模型的能力惊人，帧间一致性仍然是一个长期未解的挑战，使得多视角的连贯性难以保证。
基于图像生成的方法 （如 WonderJourney [3] 和 WonderWorld [4]）：利用 Image Outpainting 和 Depth 估计，这些方法可以扩展场景，但受限于仅能生成小范围区域，缺乏全局一致性。例如，在面对一条河流时，转身 180 度可能会看到毫不相关的景象，影响场景的连贯性。
基于程序化生成的方法（如 SceneX [5] 和 CityX [6]）：通过结合大语言模型与程序化建模，这些方法能够生成结构化的城市场景。然而，场景的多样性受限于现有素材库，使得生成结果的丰富度有所局限。
基于 3D 建模的方法（如 CityDreamer [7] 和 GaussianCity [8]）：这些方法采用显式 3D 建模，直接从数据中学习 3D 表征，从而生成空间一致的城市场景。尽管它们已解决了多视角一致性问题，但仍未突破时间维度，无法生成 4D 场景，即缺乏动态演化能力。

而 CityDreamer4D 正是为了解决这一难题而生。它打破了视频扩散模型的固有瓶颈，不仅仅是 “合成” 城市影像，而是直接建模城市场景背后的运行规律，打造一个真正无边界、可自由探索的 4D 世界。我们的核心洞见如下：（1）4D 城市生成应当将动态物体（如车辆）与静态场景（如建筑和道路）解耦；（2）4D 场景中的所有物体应由不同类型的神经场组成，包括建筑、车辆和背景环境。

具体而言，我们提出了交通场景生成器（Traffic Scenario Generator）和 无边界布局生成器（Unbounded Layout Generator），分别用于生成动态交通场景和静态城市布局。它们基于高度紧凑的鸟瞰视角（BEV）表示进行建模，使得场景生成更加高效。在 4D 城市中，所有物体的生成依赖于背景环境、建筑物和车辆的神经场表示，其中结合了基于事物（Stuff-oriented）和基于实例（Instance-oriented）的神经场。为了适配背景环境与实例物体的不同特性，我们采用了自适应生成哈希网格（Generative Hash Grids）和 周期位置编码（Periodic Positional Embeddings）进行场景参数化，确保生成的城市既具备丰富的细节，又能保持时空一致性。

CityDreamer4D: 基于 4D 生成的城市建模框架

CityDreamer 通过无边界布局生成器（Unbounded Layout Generator）生成静态场景的城市布局，并利用城市背景生成器（City Background Generator和建筑实例生成器（Building Instance Generator）对城市中的背景环境和建筑进行建模。相比之下，CityDreamer4D在此基础上进一步引入交通场景生成器（Traffic Scenario Generator）和车辆实例生成器（Vehicle Instance Generator），专门用于建模 4D 场景中的动态物体，使生成的城市更加生动且符合物理规律。

城市布局生成

CityDreamer4D将无限扩展的城市布局生成问题转化为可扩展的语义地图和高度场建模，从而实现更灵活的城市生成。为此，它采用了基于 MaskGIT 的无边界布局生成器（Unbounded Layout Generator, ULG），这一方法天然支持Inpainting 和 Outpainting ，使得场景可在任意方向拓展。

具体而言，ULG 先通过 VQVAE 对语义图和高度场的图像切片进行编码，将其映射到离散潜在空间，并构建 Codebook 。在推理过程中，ULG 以自回归方式生成 Codebook 索引，并利用 VQVAE 解码器生成一对语义图和高度场。值得一提的是，高度场由俯视高度图和仰视高度图组成，这一设计使得 ULG 能够精准建模场景中的镂空结构（如桥梁等）。

由于 VQVAE 生成的语义图和高度场尺寸固定，ULG 通过图像 Outpainting 进行扩展，以支持任意规模的城市布局。在此过程中，它采用滑动窗口策略逐步预测局部 Codebook 索引，每次滑动时窗口之间保持25% 的重叠，确保生成区域的平滑衔接和连贯性。

交通场景生成

在 CityDreamer4D 中， 交通场景生成器（Traffic Scenario Generator）负责在静态城市布局上生成合理的动态交通流，以建模真实的城市动态。

交通场景被表示为，其中由语义图（Semantic Map）和高度场（Height Field）共同描述：语义图标记动态物体的位置，高度场 定义它们的高度范围。这种表示方式确保了动态物体能在 3D 体素空间中准确渲染，并与静态场景保持一致。

为了使交通流合理且符合物理规律，我们引入高清交通地图（HD Map）作为约束。HD Map 在城市布局（City Layout）的基础上，额外提供车道中心线、交叉口、道路标志、交通信号灯等关键信息。具体而言，我们将 City Layout 转换为图结构（Graph Representation），通过边缘检测和向量化技术提取道路边界，并进一步解析车道中心线及其拓扑关系。结合 Bézier 曲线，我们推导车道的数量、宽度及其交叉口连接方式，以生成完整的 HD Map。

基于 HD Map，我们采用现有的交通模拟模型逐帧生成动态物体的边界框（Bounding Boxes），然后将其转换为语义图和高度场，确保车辆始终出现在合适的位置，并遵循合理的行驶路径。最终，所有动态物体的轨迹被合成为 4D 交通流 ，使得 CityDreamer4D 能够高效建模复杂的城市交通动态。

城市背景生成

城市背景生成器（City Background Generator, CBG）负责生成城市的背景元素，包括道路、绿化和水域。为了高效表示大规模三维场景，CBG 采用鸟瞰视角（BEV）作为场景的基本表征，该表征由语义图和高度图共同构成，使得背景结构清晰、层次分明。

鉴于城市背景通常具有类别相似、外观一致的特性，CBG 通过生成哈希网格（Generative Hash Grid）进行场景参数化，不仅增强了生成结果的自然性，还确保了 3D 结构的一致性。具体而言，CBG 采用哈希函数，将场景特征

和空间点坐标 p 映射至可学习的多尺度参数空间，生成方式如下：

为了保证背景渲染的 3D 一致性，CBG 采用基于体积渲染的神经网络，将三维特征映射到二维图像。具体而言，对于相机光线上的任意采样点，系统首先查询生成式哈希网格以获取对应的特征表示，随后使用风格噪声调制的多层感知机（MLP）计算其颜色和体密度，并通过体渲染（Volumetric Rendering）积分得到最终像素的颜色值。

建筑实例生成

建筑实例生成器（Building Instance Generator, BIG） 专门用于生成城市中的建筑结构。与城市背景生成类似，BIG 采用鸟瞰视角（BEV）作为场景的基本表征，并利用基于体积渲染的神经网络将三维特征映射到二维图像，从而确保建筑在不同视角下的稳定呈现。考虑到建筑立面与屋顶在外观和分布上的显著差异，BIG 采用独立的类别标签对两者进行建模，使生成结果更加精准且符合现实规律。

针对建筑立面常见的周期性结构（如窗户、立柱的重复排列），我们设计了一种更加轻量化的参数化方法 ——基于周期性函数的场景参数化。具体而言，BIG 通过周期性函数将建筑特征 和空间坐标 p 映射到一个高维空间，以增强建筑立面的结构一致性：

其中，Concat 代表连接（Concatenation）操作，被定义为

这一策略不仅优化了建筑立面的建模效率，还确保了生成结果在大尺度城市环境中的结构合理性，使得建筑在不同高度、角度下都能保持稳定的视觉表现。

车辆实例生成

车辆实例生成器（Vehicle Instance Generator, VIG）负责生成交通场景中的车辆，并确保其外观与运动符合物理规律。与建筑实例生成类似，VIG 采用鸟瞰视角进行场景表示，并在交通场景中提取局部窗口进行实例建模。该窗口包含语义图和高度场，用于描述车辆的位置与三维形态，同时移除其他动态物体，以确保生成过程专注于单个实例。

由于车辆在结构上具有更强的规则性，VIG 采用标准化特征空间（Canonical Feature Space）进行场景参数化。具体而言，车辆的局部坐标系由其中心位置 和 旋转矩阵R 共同定义，使得相同类型的车辆能够共享结构特征。对于给定的空间点 p ，其标准化表示为：

这一参数化方式能够捕捉车辆前后、侧面的结构差异，同时提升不同车辆实例间的特征一致性。

在渲染过程中，VIG 采用体渲染进行 3D 生成，并使用风格编码（Style Code）控制车辆外观的变化，以增强生成结果的多样性和真实感。最终，VIG 通过全局编码器提取车辆实例的局部特征，并利用标准化特征空间进行 4D 场景建模，使得 CityDreamer4D 能够高效生成时空一致的动态交通环境。

图像融合

给定城市背景的图像和掩膜（分别用和表示）、建筑实例的图像和掩膜的集合（分别用和表示）以及车辆实例的图像和掩膜的集合（分别用和，CityDreamer4D 使用如下方式得到第 t 时刻融合后的图像.

其中和分别表示建筑和车辆实例的数量。

CityTopia：高精度 3D 城市数据集

CityDreamer [7] 中所提出的 GoogleEarth 数据集尽管提供了密集的 3D 语义和实例标注，但仍存在诸多局限：缺乏街景视角、标注精度受限、以及高架道路等复杂结构未被完整标注。为解决这些问题，我们构建了 CityTopia—— 一个拥有高保真渲染、多视角覆盖、精准 3D 标注的数据集，专为城市生成与交通建模而设计。

虚拟城市构建：CityTopia 的城市场景基于 Houdini 和 Unreal Engine 构建，我们精心设计了 11 座虚拟城市，并利用 CitySample 项目的约 5000 个高质量 3D 资产生成完整的城市结构。城市的每个元素都存储了 6D 位姿信息，并通过表面采样（Surface Sampling）自动赋予语义与实例标签。这些城市在 Unreal Engine 中实例化后，可在不同光照条件下渲染出高质量的图像，为城市建模提供了更加灵活的实验环境。

数据采集：CityTopia 采用预设的相机轨迹进行数据采集，每座城市包含 3000-7500 张图像，涵盖白天与夜晚两种光照条件。相比 GoogleEarth，CityTopia 提供了更多的街景视角，并在低仰角航拍数据上有更广的覆盖。为保证图像质量，我们在渲染过程中采用 8× 空间超采样与 32× 时间超采样，有效减少渲染伪影，使得数据更加稳定。

2D + 3D 标注：CityTopia 的 3D 标注来自虚拟城市生成过程，所有 3D 物体的语义和实例信息均在数据构建时直接获得，无需额外的手工标注调整。2D 标注则通过相机投影从 3D 标注自动生成，并与街景图像、航拍图像完美对齐。在车辆场景中，CityTopia 的实例标注与 3D 结构高度一致，使其在车辆生成、交通建模等任务上具备较高的参考价值。此外，由于数据生成流程完全可控，只需增加新的 3D 资产，即可进一步扩展数据集规模。

实验

与其他世界模型方案的对比：下方视频对比了 CityDreamer4D 与 DimensionX [2]（视频生成）、WonderJourney [3]（图像生成）和 CityX [6]（程序化生成）。结果表明，CityDreamer4D 在多视角一致性上明显优于 DimensionX 和 WonderJourney，在场景多样性上显著优于 CityX。

与原生 3D 场景生成方法的对比：下方视频展示了 CityDreamer4D 与现有原生 3D 场景生成方法（包括 InfiniCity [9]、PersistentNature [10] 和 SceneDreamer [11]）的对比。结果表明，CityDreamer4D 在生成质量上实现了显著提升。

城市风格化：CityDreamer4D 能够轻松扩展城市风格。通过引入 ControlNet 的先验，我们可以将 Minecraft、Cyberpunk 等不同风格无缝应用于整个城市，只需在 ControlNet 生成的图像上微调预训练模型，即可获得风格一致的 3D 城市场景。虽然 ControlNet 生成的图像缺乏 3D 一致性，但 CityDreamer4D 依托其高效的场景表示与参数化，能够确保风格化后的城市在不同视角下保持一致。

总结

我们提出了 CityDreamer4D ，一个基于 3D 表征的 4D 城市生成框架，突破了现有 Video Diffusion 方法的多视角不一致问题 。相比传统视频生成，CityDreamer4D 直接在 3D 空间建模城市的动态变化，从而生成 空间和时间维度一致的 4D 场景。此外，我们构建了 CityTopia ，一个高精度 3D 城市数据集，涵盖多视角、多光照条件，并提供精确的 2D-3D 对齐标注。CityDreamer4D 提供了一种原生 3D 的世界模型，为 4D 城市生成提供了全新的解决方案。

参考文献：

[1] Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion. SIGGRAPH 2024.

[2] DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv 2411.04928.

[3] WonderJourney: Going from Anywhere to Everywhere. CVPR 2024.

[4] WonderWorld: Interactive 3D Scene Generation from a Single Image. arXiv 2406.09394.

[5] SceneX: SceneX: Procedural Controllable Large-scale Scene Generation. arXiv 2403.15698.

[6] CityX: Controllable Procedural Content Generation for Unbounded 3D Cities. arXiv 2407.17572.

[7] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.

[8] GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation. arXiv 2406.06526.

[9] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[10] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[11] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.

理论世界模型

相关数据

多层感知机技术

感知机（Perceptron）一般只有一个输入层与一个输出层，导致了学习能力有限而只能解决线性可分问题。多层感知机（Multilayer Perceptron）是一类前馈（人工）神经网络及感知机的延伸，它至少由三层功能神经元（functional neuron）组成（输入层，隐层，输出层），每层神经元与下一层神经元全互连，神经元之间不存在同层连接或跨层连接，其中隐层或隐含层（hidden layer）介于输入层与输出层之间的，主要通过非线性的函数复合对信号进行逐步加工，特征提取以及表示学习。多层感知机的强大学习能力在于，虽然训练数据没有指明每层的功能，但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定，学习算法只需通过模型训练决定网络参数（连接权重与阈值），即可最好地实现对于目标函数的近似，故也被称为函数的泛逼近器（universal function approximator）。

来源：Deep Learning Book

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括（i）深度上的不连续、（ii）表面方向不连续、（iii）物质属性变化和（iv）场景照明变化。边缘检测是图像处理和计算机视觉中，尤其是特征检测中的一个研究领域。

来源：维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

哈希函数技术

散列函数（英语：Hash function）又称散列算法、哈希函数，是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要，使得数据量变小，将数据的格式固定下来。该函数将数据打乱混合，重新创建一个叫做散列值（hash values，hash codes，hash sums，或hashes）的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。在散列表和数据处理中，不抑制冲突来区别数据，会使得数据库记录更难找到。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

强生机构

强生公司成立于1886年，是全球最具综合性、业务分布范围广的医疗健康企业之一，业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此，130多年来，公司始终致力于推进健康事业，让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科

量化技术

深度学习中的量化是指，用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

来源：Medium

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。