Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI押注的「1X」训出专用世界模型,首证机器人Scaling Law

机器人能认出镜子中的自己吗?目前来看,依然做不到。

去年 3 月,OpenAI 领投了一家具身智能公司「1X」。这是一家成立于 2014 年的挪威人形机器人公司,致力于研发双足机器人 NEO 和商用轮式人形机器人 EVE。

本月初,1X 正式推出了专为家庭使用而设计的双足人形机器人 NEO Beta,让人们看到了大模型加持下活灵活现、超拟人机器人的不断进步。

如今,1X 迎来了自己的世界模型。具体地, 基于视频生成(Sora)和自动驾驶世界模型(端到端自动驾驶,E2EAD)领域的进展,1X 训练出了一个世界模型,作为自家机器人的虚拟模拟器。

图片

1X 人工智能副总裁 Eric Jang 表示,过去几个月,1X 一直在开发通用机器人的学习模拟器,如今终于问世了。

图片

1X 工程师 Daniel Ho 表示这是机器人世界模型的初步进展,模型可以理解接触到的物理世界并生成高保真视频,使机器人可以在自己的神经空间中执行规划、评估和模拟操作。并且,很多生成的视频片段很难与真实视频区分开来。

图片

1X 创始人兼 CEO Bernt Bornich 表示,这是人形机器人数据显著增强扩展定律的首个证据,「没有勺子」。

图片

各路网友也对这个机器人世界模型给予了很高评价。

图片

世界模型加持下的 1X 人形机器人还让一些人直呼《西部世界》重现。

从 1X 官方给出的 Demo 可以看到,从相同的起始图像序列开始,1X 的世界模型可以从不同的机器人(EVE)动作建议中想象出多种未来。

图片

这个世界模型还能预测非平凡物体(如刚体)的相互作用、掉落物体的影响、部分可观测性、可变形物体(窗帘、衣物)和铰接物体(门、抽屉、窗帘、椅子)。

图片

图片

图片

机器人的「ChatGPT 时刻」,同样需要扩展定律

世界模型解决了构建通用机器人时一个非常实际、但经常被忽视的挑战,即评估。如果你训练的机器人可以执行 1000 项任务,与先前模型相比,我们也很难确定新模型用在机器人上,在这 1000 项任务上表现优越。由于周围环境如光照细微的变化,即使模型权重相同,机器人也可能在几天内经历性能的快速下降。

图片

                                          此前 1X 训练了一个模型,在 50 天的时间里,机器人性能下降了

如果环境随着时间的推移不断变化,那么此前在该环境中达到的实验性能很难复现,因为旧环境不存在了。如果你在不断变化的环境(如家庭或办公室)中评估多任务系统,那么这个问题将会变得更加糟糕。这一状况使得在现实世界中进行机器人科学研究变得异常困难。

经过深入研究我们不禁会问,当数据、计算和模型规模增加时,机器人的能力将如何扩展?在大模型领域,扩展定律普遍得到大家的认同,如果机器人技术要迎来「ChatGPT 时刻」,必须首先建立它的扩展定律。

其他评估方法

基于物理的模拟(Bullet、Mujoco、Isaac Sim、Drake)是快速测试机器人策略的合理方法。这些方法可重置且可重现,这样一来,研究人员能够仔细比较不同控制算法带来的的差异。

然而,这些模拟器大多是为刚体动力学设计的,需要大量手工资产创作。

如何让机器人打开咖啡滤纸的纸盒、用刀切水果、拧开冷冻果酱罐或与人类等其他智能体互动还是一个值得思考的问题。众所周知,家庭环境中遇到的日常物体或者饲养的宠物很难模拟,因此机器人使用的模拟环境往往在视觉上很单调,缺乏现实世界用例的多样性。对现实或模拟环境中有限数量任务的小规模评估无法泛化到对现实世界中的大规模评估。

世界模型

1X 正在采用一种全新的方法来评估通用机器人,即直接从原始传感器数据中学习模拟器,并使用模拟器来评估新策略。通过直接从真实数据中学习模拟器,你可以在不手动创建资产的情况下了解真实世界的复杂性。

在过去的一年里,1X 收集的 1X 旗舰产品 EVE 机器人的数据高达数千小时,这些数据包括在家中和办公室中执行各种移动操作任务以及与人互动的任务。研究人员将这些视频和动作数据结合起来,训练了一个世界模型,该模型可以根据观察和动作预测未来的视频。

图片

图片

图片

图片

图片

图片

图片

图片

动作控制

该研究训练的世界模型能够根据不同的动作指令产生不同的结果,下面展示了在四种不同轨迹条件下的世界模型生成的效果,每种轨迹都从相同的初始帧开始。 

图片

                                      左门轨迹

图片

                                   右门轨迹

图片

                                    弹奏空气吉他

世界模型的主要价值来自于模拟对象交互。在抓取盒子实验中,研究团队为模型提供相同的初始框架和三组不同的动作来抓取盒子。在每种情况下,所抓取的盒子都会根据夹具的运动而被提升和移动,而其他盒子则保持不受干扰。

图片

即使没有提供动作,世界模型也会生成看似合理的视频,例如学会驾驶时应避开人和障碍物:

图片

图片

长视野任务

模型还可以生成长视野视频。下面的示例模拟了完整的 T 恤折叠演示。T 恤和可变形物体往往很难在刚体模拟器中实现。

图片

故障

对象连贯性

模型可能无法在交互过程中保持对象的形状和颜色,有时对象甚至可能会完全消失。此外,当对象被遮挡或以不利的角度显示时,它们的外观可能会在整个生成过程中变得扭曲。

图片

图片

物理定律

左边的生成结果表明模型对物理特性有了新的理解,当抓手松开勺子时,勺子掉到桌子上就证明了这一点。然而,在很多情况下,模型生成结果都未能遵守物理定律,例如右侧的盘子悬浮在空中。

图片

图片

自我认知

研究团队让 EVE 走到镜子前,以观察它能否生成与镜子中动作相一致的行为。

图片

图片

结果显示,模型虽然开始自我反思,但没有出现「自我识别」或「自我理解」的觉醒。

图片

博客地址:https://www.1x.tech/discover/1x-world-model

产业1X双足人形机器人NEO Beta
暂无评论
暂无评论~