2023/10/03 14:31

让人恐惧的是，机器狗已经能做这种事了

只用一个神经网络实现操纵，四足机器人的重大技术突破。

跑酷是一项极限运动，需要参与者以高度动态的方式跨越障碍，对于大多数时候「笨手笨脚」的机器人来说，这似乎是件遥不可及的事，不过最近在机器人控制领域里出现了一些技术突破的趋势。几周前，机器之心曾报道过一个使用强化学习方法让机器狗实现跑酷的研究，实现了不错的效果。

最近，卡内基梅隆大学（CMU）的一项新研究也针对机器狗跑酷的挑战提出了新方法，效果又上了一个台阶，以至于人们的评价一致是：amazing.

^{观众：「是《黑镜》里面演的样子」。}

CMU 的这项研究让机器狗可以像狗狗障碍赛里的选手一样，自动越过不连续的箱子，在不同角度倾斜的坡面之间轻松地跑跳：

而且通过这些障碍的速度也很快。

轻松跳过 0.8 米（机器狗长度的 2 倍）的间距：

爬上 0.51 米高（机器狗高度的 2 倍）的障碍物：

这回没有一把站稳，它还用后腿进行了补救，动作像真的狗一样。

机器狗还可以做一些真实世界里动物难以完成的事，比如仅用两条前腿行走，相当于倒立行走：

还能仅用两条前腿下楼梯：

像在游戏里面卡了 bug，有点滑稽，又带有一点点恐怖谷效应。

该研究旨在让小型低成本机器狗能够完成跑酷任务。这类机器狗的驱动不精确，且仅有用于感知的单个前置深度摄像头，频率低、容易出现抖动和伪影。

基于此，该研究提出一种直接从原始深度和机载传感到关节角度命令的神经网络，并通过大规模强化学习进行模拟训练，以克服不精确的传感和驱动带来的问题，端到端地输出高度精确的控制行为。研究项目已开源。

论文地址：https://extreme-parkour.github.io/resources/parkour.pdf
项目地址：https://github.com/chengxuxin/extreme-parkour

方法简介

该研究通过端到端数据驱动的强化学习框架使机器狗具备「跑酷」的能力。为了让机器狗在部署时根据障碍物类型进行自我调整，该研究提出了一种新颖的双重蒸馏（dual distillation）方法。该策略不仅能输出灵活的运动命令，还可以根据输入深度图像快速调整方向。

为了让单个神经网络能够表征不同的跑酷技能行为，该研究提出了一种基于内积的简单而有效的通用奖励设计原则。

具体来说，该研究旨在训练一个直接从原始深度和机载传感到关节角度命令的神经网络。为了训练适应性运动策略，该研究采用了正则化在线适应（ROA）方法，并针对极限跑酷任务进行了关键修改。

实验结果

该研究主要让机器狗掌握 4 种技能，包括攀爬、跳过间距、在斜坡上跑跳、倒立，与其他几种方法的比较结果如下表 1 所示：

为了验证系统中各部分的作用，该研究提出了两组基线。该研究首先测试了奖励设计和整体 pipeline，结果如下表 2 所示：

第二组基线旨在测试蒸馏设置，其中涉及用于方向预测的 BC 和用于动作的 dagger，实验结果如下表 3 所示：

此外，该研究还进行了很多现实实验（记录成功率），并与 NoClear 和 NoDir 基线进行比较，实验结果如下图 7 所示：

感兴趣的读者可以阅读论文原文，了解更多研究内容。

工程四足机器人机器狗卡内基梅隆大学

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/