2023/10/12 16:28

生成模型构建交互式现实世界模拟器，LeCun觉得非常酷

Meta 首席 AI 科学家 Yann LeCun 非常看好世界模型，希望创建一个能够学习世界如何运作的内部模型。近日，UC 伯克利、谷歌 DeepMind 等机构的研究者用生成模型来构建交互式现实世界模拟器，对于世界模型具有积极意义。

基于互联网数据训练的生成模型彻底改变了文本、图像和视频内容的创建方式。有研究者预测，也许生成模型的下一个里程碑是能够模拟人类体验世界的方方面面，比如在公路上如何驾驶汽车，又比如如何准备饭菜。

现如今，借助非常全面的真实世界模拟器（real-world simulator），人类可以与不同场景和物体进行交互，机器人也可以从模拟经验中进行学习，从而避免出现物理损坏的风险。

然而，构建这样一个真实世界模拟器的主要障碍之一在于可用的数据集。虽然互联网上有数十亿的文本、图像和视频片段，但不同的数据集涵盖不同的信息轴，必须将这些数据集中在一起才能模拟出对世界的真实体验。例如，成对的文本图像数据包含丰富的场景和对象，但很少有动作，视频字幕和问答数据包含丰富的高级活动描述，但很少有低级运动细节，人类活动数据包含丰富的人类动作但很少有机械运动，而机器人数据包含丰富的机器人动作但数量有限。

以上列举的信息差异是自然的且难以克服，这给构建一个旨在捕捉现实世界真实体验的真实世界模拟器带来了困难。

本文中，来自 UC 伯克利、Google DeepMind、MIT 等机构的研究者探索了通过生成模型学习真实世界交互的通用模拟器 UniSim，迈出了构建通用模拟器的第一步。例如 UniSim 可以通过模拟「打开抽屉」等高级指令和低级指令的视觉结果来模拟人类和智能体如何与世界交互。

论文地址：https://arxiv.org/pdf/2310.06114.pdf
论文主页：https://universal-simulator.github.io/unisim/

本文将大量数据（包括互联网文本 - 图像对，来自导航、人类活动、机器人动作等的丰富数据，以及来自模拟和渲染的数据）结合到一个条件视频生成框架中。然后通过仔细编排沿不同轴的丰富数据，本文表明 UniSim 可以成功地合并不同轴数据的经验并泛化到数据之外，通过对静态场景和对象的细粒度运动控制来实现丰富的交互。

下面视频演示了 UniSim 如何模拟具有长交互视界的示例，视频显示 UniSim 一口气模拟了机器人八个动作指令：

UniSim 对人类动作的模拟：

UniSim 对 RL 策略的模拟部署如下所示：

对于这项研究，Meta 首席 AI 科学家 Yann LeCun、英伟达高级研究科学家 Jim Fan 等业界人士进行了转发。LeCun 给出一个「Cool」字的评价。

Jim Fan 表示，这项工作非常有趣，视频扩散模型被用作了数据驱动物理模拟，其中智能体可以规划、探索和学习最优行动，并且无需接触机器人硬件也不会造成损害。可以说 LLM 不仅是一个 OS，还化身为完整的现实模拟器。

论文一作、UC 伯克利博士生 Sherry Yang 表示，「学习现实世界模型正在成为现实」。

模拟现实世界的交互

如下图 3 所示，UniSim 能够模拟一系列丰富动作，例如厨房场景中洗手、拿碗、切胡萝卜、擦干手这一系列动作；图 3 右上是按下不同的开关；图 3 下是两个导航场景。

^{对应上图 3 右下的导航场景}^{对应上图3右下的导航场景}

在长程模拟方面，下图 4 是一个 UniSim 自回归地顺序模拟 8 个交互的例子：

除了支持丰富动作和长程交互，UniSim 还支持高度多样化和随机的环境变换，例如移除顶部毛巾后显示的对象具有多样性（下图 5 左）。

UniSim 在真实世界迁移的结果。UniSim 的真正价值在于模拟现实世界，图 7 显示了 VLM 生成的语言规划，UniSim 根据语言规划生成的视频，以及在真实机器人上的执行情况。

除了测试 UniSim 在真实世界的迁移能力之外，本文还进行了基于模拟器的评估，结果如表 2 所示：

用于强化学习的真实世界模拟器

实验还评估了 UniSim 在模拟真实机器人执行各种动作方面的质量如何，机器人通过重复执行低级控制操作约 20-30 个步骤来左、右、下、上移动端点。表 3 显示，RL 训练显着提高了 VLA 策略在各种任务中的性能，尤其是在指向蓝色块等任务中。然后，本文直接将在 UniSim 中训练的 RL 策略零样本部署到真实机器人上，如图 8（底行）所示。

工程UniSim通用模拟器

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。