Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破

未来,数研院将探索把视觉信息引入 Transformer 模型的控制中,进一步实现决策大模型在更复杂多样的环境上的鲁棒控制。

四足机器人运动控制的发展现状

足式机器人常见的有双足机器人和四足机器人,相比其他类型的机器人(例如轮式,履带式),它们有着更好的灵活性和通过性,可以通过更多复杂地形。因此足式机器人的运动控制一直是机器人领域研究热点之一,在代替人类巡逻,搜救,故障检测,服务,侦查等现实场景中有着较为广泛的应用场景。

足式机器人的运动控制大体上可以分为两类方法。一类是基于传统的控制方法,例如轨迹优化(trajectory optimization)和模型预测控制(model predictive control)。这类方法往往要求算法设计者有着充分的特定领域知识,如控制机器人的运动学方程、地面的形状、摩擦系数等。然而,这在复杂地形中往往是难以实现的。相比之下,另一类深度强化学习方法则更能出色完成通过复杂地形的任务。在模拟器中直接训练一个神经网络,再将其迁移到真实世界中,这种策略称为 “模拟到真实的迁移(sim-to-real transfer)”。深度强化学习可以在很大程度上减少对特定领域知识的依赖,且训练出的策略往往表现出更强的鲁棒性,因此被认为是足式机器人运动控制的一种具有前景的方法。

传统深度学习模型的容量有限,难以支持机器人在更复杂的地形环境中的控制,目前为止,大部分强化学习算法都只针对一个固定的机器人具身(embodiment)进行训练。强化学习训练完成的控制器只能应用于一个机器人,一旦机器人的硬件特性发生改变,其控制器往往需要从头开始训练。近年来,一些基于强化学习方法尝试为不同具身(例如不同形状)的机器人设计通用控制器,例如使用模块化网络架构、基于机器人条件的策略、基于图神经网络的方法。但部分方法目前仅在仿真环境中进行验证,未在真实机器人上验证可行。由于机器人形态与控制方法之间复杂的关系,设计一个跨具身的机器人控制器目前还是一个有挑战性的问题。

以 Transformer 序列模型为基础的控制框架 TERT 和 EAT

相比传统深度学习模型,Transformer 序列模型有着更大的模型容量以及更强的泛化性,在自然语言处理计算机视觉等领域的复杂多任务上取得了不错的成绩。因此,我们探究将 Transformer 模型应用于足式机器人控制的可能性,并提出了针对跨地形四足机器人运动控制框架 Terrain Transformer(TERT)和跨具身的四足机器人运动控制框架 Embodiment-aware Transformer(EAT)。

图片

图一:Terrain Transformer 训练框架

如图一所示,TERT 训练框架包括离线预训练和在线修正两个阶段。首先在离线预训练阶段,我们借鉴广泛应用于机器人控制的特权学习(privileged learning)方法,在模拟器提供特权信息(如地形信息,物理参数)的情况下使用强化学习算法训练一个教师策略(Teacher Policy),以最大化设定的奖励函数。教师策略可以在模拟器中取得近似最优的成绩,但却无法在真实世界直接应用。之后,我们使用教师策略和模拟器交互搜集数据,并训练 Transformer 根据过往历史 T 步的观测、动作序列预测教师动作。

通过离线预训练阶段得到的 Transformer 模型虽然可以在教师策略搜集得到的数据集上达到较小的损失函数,但在测试时却并不能达到满意的效果。这是因为在测试时 Transformer 输入中的动作序列并不是来自教师策略,而是来自本身 Transformer 之前的输出动作,动作序列的不同会间接导致输入的观测序列的不同,从而进一步影响算法的性能。为了解决这种由输入分布不同所带来的性能影响,我们提出在离线预训练阶段后加入一个在线修正阶段。具体地说,在线修正阶段(图一下方),使用 Transformer 输出的动作和模拟环境交互,同时使用教师策略给出目标动作,之后再训练 Transformer 根据自己经历过的观测、动作序列作为输入预测教师的动作。

图片

具有可变前后腿长度以及躯干长度的四足机器人     

而对于跨具身的四足机器人控制,数研院引入向量 e 表示机器人具身,e 包括机器人前小腿长度、后小腿长度与躯干长度等。EAT 通过在模拟器中训练 M 个不同具身的机器人控制策略,并使用这 M 个策略分别搜集对应具身下的专家数据。为了使得 Transformer 模型能完成多种具身的泛化,每条轨迹还会包括搜集数据的机器人具身向量 e。之后,EAT 在混合专家数据集上训练 Transformer,通过历史观测、动作以及具身向量 e 预测下一个专家动作。

四足机器人真机实景实验

数研院首先在宇树的 A1 四足机器人上对比了 TERT 与其他方法在不同地形上的控制效果,TERT 可以成功通过九种复杂的地形。相比之下,使用传统强化学习方法控制的机器人可以在简单地形,比如上下坡上正常行走,但却无法通过较难的地形,比如沙坑,下楼梯。

图片

数研院方法 TERT(上坡)                                                        图片传统强化学习方法(上坡)  图片数研院方法 TERT(沙坑)                                                        

图片

 传统强化学习方法(沙坑) 

图片

数研院方法 TERT(下楼梯)                                                         

图片

传统强化学习方法(下楼梯) 

图片

数研院 TERT 在九种地形上的表现   

之后,在可变具身的 Mini Cheetah 机器人上验证了 EAT 模型和其他方法。EAT 模型可以在前后腿一样长、前腿比后腿短、前腿比后腿长三种具身类型上完成较好的泛化。

图片

具身 1:前后小腿一样长

图片

具身 2:前小腿比后小腿短

图片

具身 3:前小腿比后小腿长

使用 EAT 模型的另一个优越之处在于机器人可以根据所处环境的不同变化自身的身体,达到一种类似进化(evolution)的方式。例如,当机器狗发现正常具身难以下楼梯时,可以选择更长的躯干、更长的前腿和更短的后腿,最终得以通过楼梯。

图片

未来,数研院将探索把视觉信息引入 Transformer 模型的控制中,进一步实现决策大模型在更复杂多样的环境上的鲁棒控制。

两篇中稿 ICRA 2023 的论文链接如下,感兴趣的小伙伴可以进一步了解:

1.Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer:https://arxiv.org/abs/2212.07740
2.Multi-embodiment Legged Robot Control as a Sequence Modeling Problem:http://arxiv.org/abs/2212.09078
理论四足机器人大模型Transformer
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~