Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜

图片

今天,世界见证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。

无需人类背后操作,RDT 即可指挥机器人双臂并用,完美调出如晚霞般梦幻的鸡尾酒 Malibu Sunset。

图片

和人类调酒师一样,首先,RDT 将冰块稳稳倒入高脚杯中,不撒不漏,一套动作行云流水。

图片

倒完冰块后,RDT 先后倒入椰子酒、橙汁、菠萝汁,操作娴熟,顺序不乱,确保口味一致。

图片

注入石榴汁,晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。

图片

最后,RDT 发挥空间感,夹起一片柠檬,轻轻卡在有弧度的杯口上,漂亮!

图片

同行看后纷纷表示:有了十亿参数的 RDT ,智能机器人时代不远矣!去酒吧点 RDT 调酒师,赛博朋克感瞬间拉满。

图片

在领略了 RDT 的强大后,是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer,是全球最大的针对双臂机器人操作任务的扩散基础模型,由清华大学人工智能研究院 TSAIL 团队构建。

当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手无策”。

而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”,从 “单臂” 变为 “双臂”,是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。

图片

  • 项目主页:https://rdt-robotics.github.io/rdt-robotics

  • 论文链接:https://arxiv.org/pdf/2410.07864

  • 论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得注意的是,目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。
图片
在 RDT 模型的加持下,双臂机器人成功挑战 7 项高难度任务,平均成功率上比当前最好的模型还要惊人地高出 56%

让我们一起来看看,有了 RDT,双臂机器人还能解锁哪些高阶特征吧。

效果展示

1. 灵巧操作:“机器人遛狗” 竟成现实

起猛了,发现机器人能遛机器狗了?

在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。
图片
图片
而如果把 RDT 换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。

没办法,控制精度不足!
图片
2. 指令遵循:善解人意的倒水大师

RDT 能充分理解并遵循人类的语言指令。

倒水大师 RDT,让倒 1/3 的水就倒 1/3 的水,让倒 2/3 就倒 2/3,简直分毫不差!

值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒。

RDT 完全是凭借自己的泛化性,准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。
图片
图片
与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。
图片
图片
3. 未见物体与场景:自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体?RDT 也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水...

变换任务对象和环境都难不倒它。
图片
图片
图片
图片
4. 少样本学习:一点就通的高材生

更厉害的是,RDT 有很强的领悟力,是机器人模型中的“学霸”。

教会 RDT 叠衣服仅需演示 1 遍,而其他模型要重复教几十遍才能勉强学会。
图片
图片
初识 RDT:Scaling Law 魅力时刻

相比其他机器人模型,为什么 RDT 能做到如此智能?相比同行最优水准领先多少?

三个 “最大” 是 RDT 实现智能飞跃的秘密:
  • 在机器人扩散模型中,RDT 拥有目前「最大的模型参数量」,高达 1.2B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型(八爪鱼,Octo,93M)还要大一个数量级。

  • RDT 在「最大的具身数据集」上预训练。预训练数据集包含 46 个不同的机器人数据集,总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1M 步。

  • RDT 拥有目前「最大的双臂微调数据集」。清华团队构建了包括 300+ 任务和 6K+ 条演示的数据集。与之对比,先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 的微调数据集仅有几百条演示。

解密 RDT:从问题与挑战讲起

在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。

但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类演示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。

为了解决这个问题,一种通常的做法是,利用多种不同机器人的数据,训练一个可泛化的「大模型」。

但这又会带来两个新的挑战:

一是,在机器人领域,缺乏一个像 GPT 一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。

二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。

在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。

设计 RDT:双臂机器人操作的新架构

模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能,比如擦桌子和倒水等。

然而,人类的动作模式千变万化,就连抓起一个方块都有好几种做法(见下图)。
图片
为了能学会多样的动作模式,研究者采用扩散模型(diffusion model)来进行建模。

图 3 描绘了 RDT 的整体架构,接下来我们逐一进行介绍。
图片
首先是多模态输入的编码。

对于一个具体的机器人任务,模型在收到人类发出的语言指令后,需要结合自己的视觉观察,来预测完成任务所需的机械臂动作(action)。

这里就涉及到了语言、图片和动作三种模态。
  • 动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机(MLP)来进行编码。

  • 图片具有高维度的特点,同时含有丰富的空间和语义信息。研究者采用经过对齐的 SigLIP 进行编码。

  • 语言具有变长的特点,并且高度抽象。研究者采用一个具有丰富知识的语言大模型 —— T5-XXL 来进行编码。

此外,不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型 “偷懒”,只看信息量大的模态,在训练中,研究者会以一定概率随机遮蔽(mask)各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性,研究者选择 Transformer 作为骨干网络,并做出如下关键修改:
  • 由于传感器失灵等原因,机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的 QKNorm 和 RMSNorm 来进行缓解。

  • 机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力,研究者将最终层的线性解码器替换为非线性的 MLP 解码器。

  • 图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时,往往图像会淹没文本,从而削弱模型的指令遵循能力。为此,研究者采取了交替注入的方式。

训练 RDT:预训练与微调相结合

为了在多种机器人数据上进行预训练,研究者需要对数据格式进行统一。

具体来说,研究者构建了一个统一的动作空间(如图 3 左侧所示)。

该空间的每个维度具有明确的物理含义,以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后,研究者就能将所有不同类型的机器人数据汇聚在一起,形成了目前最大的数据集,其包含超过 100 万条演示。

正因为在如此大的数据集上进行预训练,RDT 获得了无与伦比的泛化性。

最后,研究者还采集了目前质量最高的双臂微调数据集,用来微调 RDT 以增强其双臂操作能力。

该数据集具有如下特点:
  • 数量大:6K+ 演示数据。

  • 范围全:300+ 任务,从简单的抓取到精细操作,甚至包括黑板上解数学题一类的高难度操作。

  • 多样性:100+ 不同类型的物体,15+ 不同的房间以及光照条件。

测试 RDT:泛化性与操作精度并举

该团队设计了 7 个挑战性任务,从不同维度评估 RDT 的泛化能力和操作精度。

对于清洗杯子的任务,需要双手协调和物体泛化性。

具体来说,机器人需要拿起未见过的杯子,用另一只手打开水龙头,清洗杯子,倒干净杯中的水,并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。
图片
对于遥控机器狗,需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器,并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高,因为迷你摇杆的长度不到 2cm,且稍有偏移机器狗就会 “走弯路”。
图片
对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。
图片
而对于传递物体和叠裤子的任务,仅给少量演示(1 - 5 条),RDT 就需要学会一个全新的技能。
图片
实验评估(结果见表 3)中,研究者主要回答以下问题:

Q: RDT 能否对未见的物体和场景实现零样本(Zero-Shot)泛化?并遵循未见过的自然语言指令?

A:可以。在洗杯子(Wash Cup)和倒水(Pour Water)任务中,RDT 对未见场景和物体仍能达到较高成功率,其表现与见过的情况相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中,RDT 精确地理解了应该用哪只手操作、倒多少水,并能够严格遵循指令,即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。

Q:RDT 能否仅通过少量演示就学会新的技能?

A:可以。在物品传递(Handover)和折叠短裤(Fold Shorts)任务中,对于两个与已知动作模式完全不同的全新技能,RDT 仅分别通过 1 和 5 条演示的训练就轻松掌握,而其他方法几乎无法成功。

Q:RDT 是否能够完成需要精细操作的任务?

A:可以。在遥控机器狗(Robot Dog)任务中,RDT 在推动操纵杆时准确控制了角度,而其他模型会导致机器狗发生偏离。
图片
Q:扩散建模、大模型以及大数据是否有助于提升 RDT 的性能?

A:是的。如表 2 所示,研究人员对三者分别进行了消融实验,结果表明缺少任何一者都会带来极大的性能损失。

特别地,仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差,这表明预训练中学会的知识对于泛化性至关重要。
图片
关于作者

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭,主要研究方向是具身智能和 AI for Science,此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文,曾获清华大学本科生特等奖学金。
图片
另一位是清华大学计算机系的二年级博士生吴凌轩,目前主要研究方向是人工智能安全和具身智能,此前在 ICLR 发表过论文。
图片
论文团队

该项目的团队是清华大学计算机系 TSAIL 课题组,团队在扩散模型的基础理论和关键技术方面有长期的积累,提出了首个扩散模型与 Transformer 融合的架构 U-ViT,联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu,部分成果获国际表示学习大会(ICLR 2022)杰出论文奖,被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的,TSAIL 团队在国际上率先提出 “扩散策略 “概念,并长期进行 “扩散策略” 构建算法研究,在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4],包括扩散策略模型动作重采样方法 SfBC,奖励函数引导采样算法 CEP,高效扩散策略梯度蒸馏算法 SRPO,扩散策略对齐算法 EDA 等。

直播分享

为了更好的帮助大家了解这项研究,10月21日晚19:00-20:00,论文作者、清华大学计算机系的二年级博士生刘松铭带来线上直播,为大家进一步解读这项工作。
图片
直播间:关注机器之心机动组视频号,立即预约直播!
本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
图片
参考文献
[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023. 
[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023. 
[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024. 
[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.
[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.
[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.
[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.
[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.
[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023. 
[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., ... & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.
[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw
产业双臂机器人扩散基础模型RDT 大模型
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
重采样技术

重采样是指根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
八爪鱼机构

八爪鱼在线旅游发展有限公司成立于2011年,致力于为旅游同业服务,是全国旅游B2B同业交易平台运营商。

www.888ly.cn
暂无评论
暂无评论~