
Auto Byte
专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯
一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了
2025 年普遍被认为是智能体爆发元年,AI 应用将出现井喷式增长。然而,在大家纷纷将目光投向智能体的同时,另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。
这个春节,动画电影《哪吒 2》爆火,不仅登上中国影史票房榜首,还不断地刷新全球票房榜单。3D 版本中的山河社稷图、石矶娘娘变身的石头山、最后的仙魔大战…… 这些场景让我们感受到了极度震撼的 3D 动效。在 AI 领域,一项正在发展中的新兴技术有可能将 3D 动画的整体质量以及观众的沉浸感推向一个全新的高度。它就是「AI 教母」李飞飞看好并押注的空间智能(Spatial intelligence)。未来有了这项 AI 技术的加持,3D 动画的表现力有可能得到前所未有的加强。在这位 AI 领域的顶级科学家看来,无论是人类还是机器,学会如何看待这个世界、如何与世界互动至关重要,而空间智能在其中将扮演重要角色。她坚信,像语言一样是 AI 根基之一的空间智能将成为 AI 下一发展阶段的前沿技术方向。去年 12 月初,李飞飞创业团队 World Labs 的首个产品向我们展示了单张图生成 3D 世界的惊艳效果。从二维到三维,AI 要想真正理解与操控 3D 空间,需要解决不少痛点。比如大规模高质量 3D 数据匮乏限制了模型效果和泛化能力,生成的 3D 场景在几何结构和纹理细节上不够精细或存在瑕疵、不完整,多视角一致性很难保证;再比如效率问题,处理复杂图像和大规模场景时可能导致算力消耗过大、生成时间过长。因此,空间智能真正突破传统 AI 的二维像素级视觉理解并不是那么容易。在国内,一家「All in AGI 和 AIGC」的大模型厂商,向真实世界的几何与物理规则发起了挑战,并率先在空间智能这个新兴领域搞出了一个大动作。2 月 14 日,昆仑万维正式发布了 Matrix-Zero 世界模型,迈出了其探索空间智能的关键一步。Matrix-Zero 包括 3D 场景生成大模型和可交互视频大模型,不仅可以将用户输入的图片转化为可自由探索的真实合理的 3D 场景,而且能够生成可交互视频。这意味着,Matrix-Zero 是一个功能「加强版」的 3D 物理世界与视频生成器。随着 Matrix-Zero 的推出,昆仑万维在 AIGC 时代的定位又有了新的变化,成为国内第一家同时推出 3D 场景生成、可交互视频生成模型的探索空间智能企业。昆仑万维表示,Matrix-Zero 预计将于 4 月份正式上线,届时用户便能上手体验了。从业界已有的工作来看,仅凭任意一张图片就可以生成遵循基本物理几何规则的 3D 世界,成为了探索空间智能的一项关键技术进展。通过训练出的感知、理解和交互能力,AI 想要在三维空间中像人类一样自由地导航、操作和创造。从李飞飞 World Labs 首个 3D 世界产品,到谷歌 DeepMind 的第二代世界模型 Genie 2,空间智能正在努力完成从生成内容到构建世界的进化,这就要求不仅要理解像素,还要有能力解析空间坐标、几何关系与物理规律,从而实现尽可能真实的立体感和空间深度。此次,昆仑万维的 Matrix-Zero 向着这些目标开始了自己的尝试,形成了领先的技术方案,并最终在 3D 世界生成领域展现出了一些独有优势。根据昆仑万维的介绍,Matrix-Zero 采用了与李飞飞 World Labs 不同的 3D 技术路线,实现了可自由探索且更加真实合理的 3D 场景生成效果。在由单张静态图片转化成对应 3D 场景的过程中,保持与原图片的风格一致很重要。在这方面,Matrix-Zero 支持不同风格的图片输入,比如写实风和卡通风(如下写实小巷和卡通蘑菇),严格地「继承」了图片原有风格。Matrix-Zero 还进一步具备了风格转换能力,在生成 3D 场景时将原图片丝滑地切换成另一种风格,可玩性相较竞品更高,如下示例将原图的房屋变成了红瓦白墙。
其次,Matrix-Zero 生成的 3D 场景实现高度的全局一致性,解决了从单一视角图片生成广范围 3D 场景的前后不一致与空间合理性问题。从粗糙的几何结构到细节丰富的场景,Matrix-Zero 利用空间扩散模型和可微渲染技术,在不断的细节细化中改善全局一致性,成功创建出了完整且一致的 3D 世界。从下面两图可以看到,Matrix-Zero 通过自由的镜头移动(包括前进和 360 度环视),从 3D 场景中渲染生成一致的新视图,并确保生成的 3D 场景在空间、物体位置和全局尺度上的合理性。接下来,Matrix-Zero 向我们展示了它的最大亮点——支持在 3D 场景中任意方向的长距离、大范围自由探索,用户的可操作性更丰富、更强。实现如此程度的自由探索,得益于 Matrix-Zero 生成的 3D 场景很好地解决了连续性、合理扩展、环境交互、空间感知与导航等多个技术层面的挑战。Matrix-Zero 不仅可以做到丝滑流畅的前进、后退、左右转、环视等单一移动,还能够执行更复杂的 360 度俯视(下图上)以及先前进后右转等复合移动(下图下)。
最后,Matrix-Zero 生成的 3D 场景中还能加入动态物体,并实现水流、光照、云雾等看起来自然且符合物理规律的动态效果。达成这些目标,需要昆仑万维团队融合深度学习、图形学和实时计算等技术。更具体地,只有在物理仿真、光照与材质模拟、物体交互、实时渲染等多个领域的融合,才有可能从静态图片中捕捉、预测并最终正确模拟出合理的动态物理行为。Matrix-Zero 实现了丰富的物理动效,包括光照水流混合效果(下图上)、云雾效果(下图下)、海浪效果等。这对于未来帮助 AI 更好地提升 3D 世界的物理属性具有积极意义。以上结果一一看下来,我们可以得出这样一个初步结论:Matrix-Zero 生成的 3D 场景以及表现出来的亮点,让国内厂商在空间智能领域有了匹敌甚至一些层面上超出国外竞品的实力,其中大范围自由探索增强了 AI 的物理推理、空间认知等能力,有望为构建通用世界模型和 AGI 提供强大助力。Matrix-Zero 的第二个子模型支持可交互的视频生成,其最大的亮点是更关注实时交互和大范围场景。一方面,Matrix-Zero 泛化能力很强,可以适应不同环境,并能以极高的效率生成流畅、一致和合理的高质量视频。另一方面,Matrix-Zero 超出了已有视频生成的能力范畴,极大地强化了视频内容的可操作性,让用户能够自由地调整视角、操控场景元素,并实时影响视频内容,更符合他们的需求和预期。可以说,人在视频生成中的参与度更高了。从下面生成的城市和沙漠两个环境的视频来看,Matrix-Zero 的可交互性展现得一览无遗。用户可以通过任意的键盘或鼠标移动来控制方向,包括前后左右移动和自由视角移动。这样一来,用户能以极高的自由度来探索视频内容,并使它们更满足自己的意图。这种强交互性还将进一步优化世界模型在虚拟环境中的的适配性,为构建更强、用户更友好的交互式应用提供驱动力。从以上一系列 3D 场景和可交互视频的表现来看,在 Matrix-Zero 创建的虚拟世界中,人机交互、自由度和沉浸感均大大加强。可以遇见,未来更强大的昆仑万维 Matrix-Zero 将在可控游戏场景构建、具身智能场景模拟以及 3D 影视镜头高效生成中开辟无限的应用可能性。当然,Matrix-Zero 的进步,是昆仑万维在自研 3D 场景生成、基础视频生成模型以及用户输入交互模型上全方位升级的结果。对于 3D 场景生成,Matrix-Zero 由背后强大的 3D 场景生成大模型驱动,它包含两个核心模块,分别是场景布局生成模块和纹理生成模块。作为单张图生成 3D 世界的两个核心环节,场景布局生成和纹理生成决定了 3D 世界的几何结构和视觉细节,还直接影响空间完整性与交互体验。因此,Matrix-Zero 要解决一系列挑战,包括推测不可见部分的合理性(如深度关系、物体语义)、物理一致性(如材质、空间关系的合理性)以及计算资源优化(即高质量 3D 生成的计算开销),这样才可能提高 3D 世界生成的真实感和可用性。Matrix-Zero 的场景布局生成模块融合了可微渲染和扩散模型技术,创造出与输入图片一致的 3D 场景布局;纹理生成模块在图片生成和视频生成模型的基础上进行训练,可以生成符合场景布局且运镜精准控制的视频。两个模块相辅相成,结合 3D 高斯泼溅(Gaussian Splatting)进行端到端优化,就得到了初始 3D 场景。接下来,为了确保用户在任何位置、任何角度都能看到合理、一致的场景,3D 场景生成大模型发挥关键效用,对场景缺失区域进行几何和纹理补全,构建出了完整、合理、自然的 3D 世界。而相较于 3D 场景,Matrix-Zero 可交互视频生成背后采用的技术路线又有所不同。我们了解到,该方法以自研的生成式视频模型为基础,依托大规模开放数据的预训练模型,并结合了自研用户输入交互模型,最终形成了以用户输入为核心驱动的空间智能视频生成方案。有了这些模型的共同参与,高质量、稳定视频的输出成为可能。作为视频生成系统的 Matrix-Zero,其包含了两大组件,分别是核心的基础视频生成模型以及重要的用户输入交互模型。两者各司其职,为 Matrix-Zero 视频生成不同阶段的能力实现保驾护航。一方面,基础视频生成模型从初始视频帧生成连贯视频内容,它采用深度学习技术,并结合多种先进的生成模型来确保视频的清晰度、稳定性和逻辑性。生成过程中利用到了以下三项关键技术:- 一是基于 Transformer 的视频扩散模型。通过引入 Transformer 架构,更好地捕捉到了视频序列中的时序依赖关系,同时帧间一致性的增强可以避免出现画面跳跃或不连贯,视频整体质量得到提升;
- 二是潜变量自编码器(VAE),它负责对数据进行降维处理,从而提高计算效率、降低计算成本并减少了信息冗余,加速输入内容处理和高质量视频输出;
- 三是引入时间步长优化策略来确保物理合理性。时间步长的调整避免了画面失真并保证物体合理运动,使视频更加自然流畅。
另一方面,用户输入交互模型专门解析用户输入信息以将它们转化为视频调整信号,这样做是为了让视频内容准确地响应用户操作,带来自然、流畅的交互体验。具体地,用户输入交互模型通过离散运动控制、连续视角控制、3D 场景位置追踪和滑动窗口优化四大模块,实现了更智能的交互式视频生成。各个模块的功能分别如下:- 离散运动控制,用于解析用户的基本动作指令(前进、跳跃、后退等),将它们转化为对应的运动轨迹,从而调整物体行为以符合用户交互需求;
- 连续视角控制,实时解析、响应鼠标或其他输入设备的连续控制信号(如视角变化、方向调整等动态操作),并通过调整视频内容来实现平滑、一致的视角变换;
- 3D 场景位置追踪,利用 3D 空间定位技术确保不同场景下稳定、自然的视角变换,减少画面突兀跳转,让视频更连贯;
- 滑动窗口机制,通过引入时间序列中的历史输入信息,系统对用户下一步操作的预测准确度更高,控制响应的平滑度得到优化;交互流畅性也更强,延迟减少,用户体验提升。
回顾过去不久的 2024 年,是大语言模型飞速发展的一年。可以看到,从基座模型、实时语音模型、视频模型到社交媒体爆火的推理模型,大模型的生成与理解、自我思考能力在短短一年内实现量级提升。与此同时,空间智能异军突起,有实力、有远见的厂商逐渐开始了布局。作为国内领先的人工智能企业,昆仑万维在过去每一波 AI 浪潮中始终展现出了前瞻性,从拼参数的百模大战到卷多模态、卷推理、卷智能体,其在各个阶段的成果产出中完成了「算力基础设施 - 大模型算法 - AI 应用」的全产业链布局,并构建起了由 AI 大模型、AI 搜索、AI 游戏、AI 音乐、AI 社交、AI 短剧组成的多元 AI 业务矩阵,积极推动商业化落地。此次 Matrix-Zero 是昆仑万维在空间智能领域的又一标志性成果,此前曾发布 3D 生成大模型 Sky3DGen,并融合视频大模型推出了 AI 短剧平台 SkyReels。随着 Matrix-Zero 的到来,昆仑万维的空间智能探索将开启新篇章,其多元业务矩阵也将进一步得到强化,并为其多模态大模型的应用落地开辟了一条新的赛道。未来,我们可以期待空间智能的更多升级,比如模型训练层面结合视觉、听觉、触觉等感官,通过强化学习实现更精确的感知和推理;再比如模型应用层面有望扩展到更多行业或融合进现有产品。可以说,无限可能性等待着进一步探索,空间智能大有可为。对于像昆仑万维这样 All in AGI 的企业来说,更强大的空间智能将赋予 AI 理解、感知、推理、交互和操作物理世界的能力,成为 AGI 迈向更高智能水平的核心支柱。