AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在春晚上扭秧歌的机器人,现在也能跑跳自如了?还能在室内室外打一套拳击,看这两步跳的,害怕吗?
它还能弯腰搬箱子:
来自上海交通大学和上海AI Lab的研究团队提出了一套通用的人形机器人控制器 HugWBC,让人形机器人可以同时掌握多达四种步态,以及可以自主组合、用于精细化调整机器人行为的 8 种命令!
项目主页:https://hugwbc.github.io 论文地址:https://arxiv.org/abs/2502.03206
尽管此前的人形机器人在运动上取得了很多令人惊叹的结果,但离人类还差的多!人类在运动中具有令人惊叹的细粒度调整能力!比如,人类可以轻易实现多种步态,例如跑步、双脚跳跃、甚至单脚跳跃。此外,人类还能调整步伐的大小、频率、身体的姿态,同时也能保证上身各种动作的稳定。因此,研究者提出思考,这种通用的控制能力,是否应该被机器人的底层控制模块所掌握?
和此前控制器只跟踪速度指令、或是关键点不同,HugWBC 的研究团队提出了一套扩展的指令空间,包含任务指令(即速度跟踪)和行为指令,后者包括姿态、脚步和步态,以提供细粒度的运动控制,从而极大发挥人形机器人的硬件潜能。在默认情况下,HugWBC 是一套全身控制器,同时控制上肢和下肢用于高动态运动;与此同时,HugWBC 也提供了上肢的外部控制器介入,用于支持进一步的遥操和精细控制,和实现后续的移动操作类任务。为了达到这一目标,研究者们结合了控制理论和强化学习,进行了扎实的方案设计。
扩展的指令空间和步态奖励
HugWBC 框架
HugWBC 引入的扩展指令空间包括 1)任务指令,在本工作中主要是移动的速度指令;2)行为指令,包括脚步、姿态和步态指令。此外,控制器策略还接收机器人本体感知观测和上肢介入信号,如无上肢介入,则控制器默认控制全部关节,实现自然的摆动。
具体来说,脚步指令包括步频和最大摆动高度;姿态指令包括机器人高度、前倾角和腰部转动角;步态指令则是产生不同类型步态的关键,主要由双脚的相位变量(即双脚在步态周期内的进度)、相位差(即双脚在步态周期内的进度差)和占空比(即足部腾空时间占步态周期的比例)。通过组合这些指令即可以产生丰富多样、且细粒度的步态。
为了引导机器人能根据指令学习到细粒度的步态,研究者在跟踪奖励的基础之上,提出了两种额外的步态奖励:
即接触 - 摆动奖励和足端摆动奖励,用于引导机器人产生对应的步态周期和足端轨迹。
对称奖励
自然对称的运动行为可以最小化能量消耗的效率,并通过后天学习逐渐被人类掌握。具有高度仿生机制的人形机器人也具有对称的结构特征。然而,如果没有先验知识,对称形态信息很难被策略探索,尤其是对于产生多样化行为的策略。这使得最初的探索变得更加困难,使得策略很容易陷入局部最优,导致不自然的运动。为了利用这种形态对称的优势,研究者为人形机器人提出了镜像函数 F (・) 和对应的损失函数,以鼓励策略产生对称和自然的运动。
上身介入的鲁棒性课程训练
HugWBC 将自己定位为基础人形控制器,因此需要支持上半身的外部控制介入,可用于遥操等数据采集。研究者们通过设计上肢的噪声课程来促使机器人学习到这一点。
最后,整套训练框架使用非对称的强化学习算法在模拟环境里训练,实现真实场景的部署。
评估:指令跟踪误差和鲁棒性测试
在跟踪性误差实验分析中,研究人员首先分析了在四种步态下单个指令的跟踪误差,如表 3 所示,其中行走(Walking)和站立(Standing)步态的跟踪误差明显小于双脚跳跃(Jumping)和单脚跳跃(Hopping),每种步态的跟踪精度与该步态在仿真中的训练难度一致。例如,行走和站立的模式可以在训练中先学习,而跳跃和跳跃的步态出现较晚,需要较长的训练时间才能熟练掌握。且低速下的运动技能更容易掌握,高速下机器人的动态稳定性下降,会导致跟踪精度的下降。
此后,研究人员评估了不同介入训练方法对于策略在上肢介入情况下的有效性,如表 4 所示,HugWBC 在三类测试中均取得了最好的跟踪表现,表明 HugWBC 的噪声课程干预策略使控制策略能够处理大范围的手臂运动,使其可以有效的支持复杂的移动操作任务。而仅学习 AMASS 数据或无介入训练的策略则在训练分布外的测试中出现了跟踪精度的灾难性下降。
为了进一步说明 HugWBC 对于操作任务的支持,研究人员评估了站立状态下指令跟踪的平均足端移动距离,如表 5 所示,HugWBC 足端移动距离最小,在站立状态下调整姿势引入了对稳定性的额外要求,因为机器人通过踱步来保持平衡可能会增加完成需要站立不动的操作,实验结果表明 HugWBC 在站立的各种姿态下可以支持精细的操作任务任务的难度。
随后,研究人员分析了介入训练对策略鲁棒性的提升。如图 2 所示,HugWBC 在两项干扰测试中的表现明显优于未经过介入训练的基线方法。其原因在于,干预使机器人能够有效应对来自上身的各种扰动,在训练过程中几乎涵盖了所有极端情况,从而显著提高了策略的鲁棒性。
指令的组合分析
研究者分还分析了组合指令对控制器表现的影响,使用热力图矩阵来高效地可视化了不同指令在对应范围内的跟踪精度。以步行状态为例,
可以看到,在较小的速度范围内,前向线速度、角速度、身体高度、转腰角度都不会明显的相互干扰,一旦速度超过 1.5m/s,控制器会牺牲跟踪精度来保持动态的平衡与稳定。横向速度、抬脚高度与身体俯仰角则常受到明显的干扰。频率则是需要在合适区间内才能使表现更好。抬脚高度与频率、身体俯仰角与身体高度这两组指令则有明显的关联性。