Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

李飞飞团队「具身智能」最新研究:机器人接手所有家务

李飞飞「具身智能」又出新研究了。

「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!」
image.png
在日常生活中,你有没有想过这样一个问题,即机器人究竟需要具备哪些能力才能真正帮助人类完成家务任务?BRS 就是为了解决这项任务而诞生的 —— 简单来讲,BRS 就是一个综合性框架,用于掌握机器人多样化家庭任务中移动全身操作。无论是倒垃圾、摆放衣物还是清洁马桶,BRS 都能让机器人应对这些日常实用活动。

例如,基于 BRS 的机器人可以帮助用户捡垃圾:
图片
将扔在地上的物体重新放在架子上:
图片
还能帮你清洁马桶,看起来是一个任劳任怨的机器人:
图片
Party 过后帮你收拾桌子:
图片
还能帮你去衣柜拿衣服:
图片
这么全能的机器人是如何实现的呢?我们接着往下看。

方法介绍
image.png
论文主页:https://behavior-robot-suite.github.io/

机器人需要具备哪些关键能力才能有效执行日常家务?

通过分析,研究团队确定了成功执行这些任务所必需的三项全身控制能力:双手协调、稳定精确的导航以及广泛的末端执行器可达性。

例如,搬运大型重物需要双手操作,而在房屋中检索工具则依赖于稳定精确的导航。复杂任务 —— 如一边拿着杂货一边开门,需要协调运用这两种能力。此外,日常物品分布在不同位置和高度,这要求机器人能够相应地调整其触及范围。
image.png
经过精心设计的机器人硬件,配备双臂、移动底座和灵活躯干,是实现全身操作的关键。

然而,这类复杂设计给策略学习方法带来了重大挑战,尤其是在数据采集规模化和全身协调动作方面。

为应对这些挑战,研究团队推出了 BRS,旨在通过全身操作技术解决各种真实家庭任务。

BRS 有两项关键创新,两者协同解决机器人硬件和学习方面的挑战。
  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);

  • WB-VIMA(Whole-Body VisuoMotor Attention)。

image.png
JoyLo
为实现对高自由度移动机械臂的流畅控制,同时便于为后续策略学习收集数据,研究团队推出了 JoyLo —— 一种构建经济实惠的全身远程操作界面的通用框架。
图片
研究团队在 R1 机器人上实现了 JoyLo,设计目标如下:
  • 高效的全身协调控制系统,实现复杂动作的流畅衔接;

  • 丰富的用户反馈机制,带来直观的远程操作体验;

  • 确保高质量的示范动作,提升策略学习效果;

  • 低成本实现方案,大幅提高系统可及性;

  • 实时、便捷的控制器设计,确保操作无缝顺畅。

项目还提到,JoyLo 的成本总共不到 500 美元,团队还贡献了物料清单和组装说明。
  • 物料清单地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom

  • 组装说明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html

WB-VIMA 策略
图片
WB-VIMA 是一种模仿学习算法,旨在通过利用机器人的固有运动学层次结构来建模全身动作。

WB-VIMA 的一个关键见解是,机器人关节之间存在强烈的相互依赖关系 —— 上游链接(例如躯干)的小幅移动可能会导致下游链接(例如末端执行器)的大幅位移。为了确保所有关节之间的精确协调,WB-VIMA 将下游组件的动作预测条件化于上游组件的预测,从而实现更同步的全身运动。

此外,WB-VIMA 通过自注意力动态聚合多模态观察,使其能够学习表现力强的策略,同时减轻对本体感知输入的过拟合。

实验

实验探讨了以下问题:
  • Q1:BRS 支持哪些类型的家庭任务?

  • Q2:JoyLo 与其他方法相比表现如何?

  • Q3:WB-VIMA 是否优于基线方法?

  • Q4:哪些组件促成了 WB-VIMA 的有效性?

对于问题 1:BRS 适用于各种家庭任务,比如扔垃圾:

机器人先是导航到客厅中的垃圾袋旁边,将其捡起(子任务 1),然后将垃圾携带到一扇关闭的门前(子任务 2),打开门(子任务 3),移动到室外,并将垃圾袋放入垃圾桶(子任务 4)。又比如,机器人打扫餐桌。机器人从客厅出发,导航到厨房的洗碗机(子任务 1)并打开洗碗机(子任务 2)。然后,它移动到游戏桌(子任务 3)收集碗(子任务 4)。最后,机器人返回洗碗机(子任务 5),将碗放入洗碗机内并关闭洗碗机(子任务 6)。稳定且精确的导航是完成这一任务的最关键能力。 
对于问题 2:JoyLo 能够为策略学习提供高质量的数据

研究团队对 10 名参与者进行了全面的用户研究,以评估 JoyLo 的效果及其收集数据对策略学习的适用性。下图为将 JoyLo 与 VR 控制器和 Apple Vision Pro 进行比较。
图片
效率优势:
  • JoyLo 整体任务成功率是 VR 控制器的 5 倍(Apple Vision Pro 无人完成全任务);

  • 中位完成时间较 VR 控制器缩短 23%;

  • 在铰接物体操作等精细任务中表现突出。

image.png
                                用户研究结果(10 名参与者)。

用户体验:
  • 所有参与者最终评价 JoyLo 为最友好交互;

  • 70% 用户最初认为 IK 更直观,但实操后偏好逆转;

  • 用户反馈 IK 方法在移动底座 / 躯干控制上存在显著困难。

image.png
                               用户研究参与者的人口统计数据和调查结果。

对于问题 3:WB-VIMA 始终优于基线方法

实验显示,WB-VIMA 在所有任务中全面超越基准方法:端到端任务成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任务表现分别优于 DP3(1.6 倍)和 RGB-DP(3.4 倍)。
image.png
                               五项代表性家庭活动的成功率。「ET」表示整个任务,「ST」表示子任务。
image.png
                              评估期间的安全违规情况。WB-VIMA 与环境物体的碰撞极少,且几乎不会因施加过度力量而导致电机失去动力。

对于问题 4:WB-VIMA 组件对任务性能的影响

研究团队针对 WB-VIMA 展开消融实验,分别移除自回归全身动作去噪和多模态观察注意力机制模块。实验表明,任一组件缺失均导致性能显著下降:在「将物品放上架子」及「整理衣物」任务的「打开衣柜」子任务中,移除自回归去噪模块使成功率骤降 53%;而多模态注意力机制缺失则全面削弱各任务表现。
image.png
                                                      「放置物品到架子上」和「铺展衣物」任务的消融实验结果。

最后,研究团队还展示了几个失败案例。包括:

1) 尽管机器人已经抓住把手,但未能完全打开洗碗机;
2) 未能按下冲水按钮;
3) 未能从地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能关闭衣柜门。
图片
了解更多内容,请查看原论文。
产业BEHAVIOR Robot Suite具身智能李飞飞
暂无评论
暂无评论~