2023/10/04 20:17

从观察、思考到行动，深度强化学习大牛Pieter Abbeel谈如何驯服机器人

这样学，还能那样学。

人类的大脑具有学习新事物的能力，而且学习方式多种多样，从模仿他人到观看在线解说视频，不一而足。如果机器人也能这样做呢？2021 年 ACM 计算奖获得者 Pieter Abbeel 的职业生涯一直在研究这个问题。

Pieter Abbeel 是 Covariant 的创始人之一。Covariant 是一家人工智能机器人公司，致力于构建一个通用的人工智能，使机器人能够在现实世界中学习和操作，以协助人类完成繁重和劳累的任务，尤其是在仓储和物流行业中。

^{Covariant 的创始人陈曦、Pieter Abbeel、段岩、张天浩（从左到右）}

通过与仓储公司的合作，Covariant 的核心技术「Covariant Brain」能够接触到大量现实生活中物体，从数百万次的拾取任务中学习。Covariant Brain 能够使机器人看、思考并行动。在学习过程中不仅学习既有动作，还通过学会如何学习（元学习）来抓取任何不熟悉的物品，无论形状、大小或包装如何。

最近，ACM 邀请到 Pieter Abbeel，聊一聊有关他的工作，以及那些他为更轻松「教」机器人学习而开发的技术。以下为机器之心对本次访谈进行了不改变原意的编译与整理。

ACM：让我们从深度强化学习和你开发的名为「信赖域策略优化」的方法开始。这种方法是如何工作的，你又是如何开发出来的？

Pieter Abbeel：过去，要把机器人放在某个地方，比如汽车厂或电子厂。这时你需要把机器人周围的环境布置好，让一切以完全相同的方式重复一遍又一遍。然后，用某种固定的动作序列对机器人进行编程，这样就能完成任务了。这对于结构化的环境非常有效，但当在可预测性稍差的环境中，我们就无能为力了。

我一直认为，当机器人能够适应不同环境时，就会发生重大变革。而要做到这一点，就意味着机器人必须具备学习能力。

ACM：那么如何让机器人学习呢？

Pieter Abbeel：这是我取得博士学位之后一直在研究的问题。从根本上说，主要有两种方法，它们相辅相成：一种是模仿学习或学徒学习，另一种是强化学习。

在模仿学习中，你告诉机器人该做什么，机器人就会从你的例子中学会做这件事。这很好，因为当你想让机器人做某件事时，你通常较为准确地知道需要它做些什么。但挑战在于，你需要给机器人提供大量的示例，这样它才能在面对新场景时进行归纳总结，并完成任务。这可能会变得非常耗时，并且一旦环境发生变化，总会有一些内容超出你所给出例子的范围。

ACM：强化学习是什么？

Pieter Abbeel：强化学习是关于试错的。在这种方法中，不需要向机器人展示该做什么，机器人只是不断尝试，然后系统会告诉它是否成功。因此原则上，你需要先通过模仿学习向机器人展示该做什么，然后让机器人不断试错，从而学习。

ACM：2012 年，ACM 图灵奖获得者 Geoff Hinton 证明，只要有足够的视觉数据，深度神经网络在训练后就能表现出前所未有的模式识别能力。我想这启发了你，使你的强化学习框架中的模式识别功能更加强大。

Pieter Abbeel：在强化学习中，机器人会自己做一些事情，但它仍然需要识别好的运行模式与差的运行模式有何不同。我和我的学生 John Schulman 开始尝试使用深度神经网络，看看能否改进强化学习算法中的模式识别器。但事实证明，强化学习算法比标准的监督学习要脆弱得多。在监督学习中，有一个输入，输出是一个标签，你只需要识别模式。而在强化学习中，机器人需要在从未运行过的情况下学会运行。在这过程中，信号不多，噪音很大。

ACM：因此，你尝试既要提高模式识别，又要让算法更加稳定。

Pieter Abbeel：我们需要能够保证机器人在持续改进。如果机器人观察最近的经验，它将更新模式识别器。而模式识别器是一种神经网络策略，用于接收当前的传感器输入并生成电机指令。我们知道，如果能想出一种方法让机器人在每一步都能持续改进，那么就有了利用这些庞大神经网络进行强化学习的真正基础。

ACM：这就是信赖域策略优化的作用所在了。

Pieter Abbeel：在传统强化学习中，我们会进行一系列试验，然后计算梯度，找出进步最大的方向。信赖域策略优化定义了一个信赖区域：一个我们知道可以信赖梯度的区域。梯度是 landscape 的一阶线性近似值。我们知道 landscape 不是线性的，但在局部它能够以这种方式近似为线性。因此，我和 John Schulman 想出了一种方法，来量化可以信赖这种线性近似的区域。接下来，我们只需在该区域内迈出一步，就能保证改进效果。

ACM：重复这样做，你就为强化训练打下了值得信赖的基础。

Pieter Abbeel：没错！我们在 YouTube 上有一段视频，你可以在视频中看到整个过程。机器人只是不断尝试，不断摔倒，但随着时间的推移，它真的开始运行了。学习的妙处在于，一旦你有了学习算法，你就不需要重新编程，只需再次运行学习算法，它就能学会在新情况下需要什么。

^{视频来源：https://bit.ly/3nZrQhs}

ACM：你创立的公司 Covariant 正试图通过制造一个通用的机器人大脑来商业化这个想法。

Pieter Abbeel：我们的目标是提出一种方法，使机器人能够在学习什么以及如何学习方面通用。当然，机器人不能通过学习过操作堆乐高积木然后学会飞行，堆积木并不是学习飞行的正确数据集，但是代码可以是相同的。就像人类学习如何骑自行车或驾驶汽车，在人脑中，思路都是一样的。

ACM：Covariant 也在为商业应用构建机器人，特别是仓储取放机器人。

Pieter Abbeel：我们可以赋予机器人超越预先编程的固定动作序列的新技能，即使它们不是完全通用的。从我们的学术研究中我们知道这是可能的，我们开始考虑创建 Covariant。我们想到，机器人现在应该具备有用性。另外，我们的产品开发是数据驱动的，如果想要收集大量的数据，则需要制造出真正能激发人们购买需要的机器人。

ACM：当你在 2017 年创建 Covariant 时，自动驾驶汽车获得了大量的资金。是什么吸引了投入仓储取放机器人？

Pieter Abbeel：我们希望找到一个领域，它不需要实时干预，而是在极少数情况下才需要人工支持。实时人工干预很昂贵，无法体现机器人做事的价值。使用机器人操作，你仍然需要非常高的精度，但一旦机器人没有像预期的那样运行，就会有人介入并进行快速修复。

我们研究了许多不同的公司、行业和应用，最后我们把目光集中在仓储上，因为它似乎是一个自然而然的起点，原因有二。首先，取放是机器人几乎所有操作的基础。第二，这是一个快速发展的行业，真正需要自动化来支持我们所有的在线传送。在拾取和放置过程中没有自动化，这种非常重复的工作是对人类来说是很伤脑筋的。

ACM：你还与人共同教授一门关于 AI 业务的课程。你从向非专业人士教授 AI 中发现了什么？

Pieter Abbeel：我决定教授这门课程的原因之一是，我认为对 AI 的基本了解对做出商业决策很重要。许多公司将以某种方式使用 AI 人工智能，无论是在内部开发还是购买某种服务。商业专业的学生必须能够理解今天可能发生的事情，以及在不久的将来可能发生的事情，以及如何评估不同的系统。

这很有趣，因为对于从未真正研究过 AI 的人来说，这有点像解释一个魔术。就其核心而言，AI 是很好解释的。如果你想把它推向下一个技术前沿，你需要大量的训练，但理解基本概念并不需要多年的学习。

^{原文链接：https://cacm.acm.org/magazines/2023/9/275705-how-many-ways-can-you-teach-a-robot/fulltext}

^{参考链接：}

^{https://redian.news/wxnews/436445}

工程Covariant BrainCovariantPieter Abbeel

相关数据

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

模仿学习技术

模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，就能执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/