Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Matthew Botvinick等作者

DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习

近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利游戏、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,也许结合「快」与「慢」的学习才是强化学习应该走的路。

DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上发表文章,概览了深度强化学习中的一些新技术,这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five,它相当于人类玩了「4 万 5 千年」的 Dota 2 游戏,如果智能体能像人类那样「快学习」,也许它的学习能更高效。

其实很多人认为深度强化学习样本效率低下,学习过程过于缓慢,无法提供了解人类学习的可靠模型。在本文中,DeepMind 研究人员利用最近开发的技术反驳了这一批评。这些技术允许深度强化学习更灵活地进行操作,能够比之前的方法更快速地解决问题。

深度强化学习的快与慢

近期的 AI 研究引出了强大的技术,如深度强化学习深度强化学习将表示学习和奖励驱动的行为结合起来,似乎与心理学和神经科学具备内在的相关性。然而深度强化学习需要大量训练数据,这表明深度强化学习算法与人类学习的底层机制存在根本区别。

当这一担忧被带到深度强化学习第一波浪潮时,后续的 AI 工作创建了一些方法,允许深度 RL 系统更快、更高效地学习。两种有趣且有前景的技术分别是 episodic memory 和元学习

除了作为 AI 技术以外,利用 episodic memory 和元学习的深度 RL 方法还在心理学和神经科学上有直接且有趣的应用。这些技术揭示了一个微妙但非常重要的洞见,即学习的快与慢之间的基础联系。

深度强化学习的「慢」是指每一个任务都要极其庞大的试错过程,它不能像人类那样利用经验或知识快速学习。但这种慢却也非常有优势,智能体能找到更好的解决方案、更具有创新性的观点等等。反观深度学习的「快」,我们希望借助决策经验,帮助智能体快速学习新任务与新知识。

也许结合了「快」与「慢」的强化学习,才是以后真正理想的强化学习

强大但慢速:第一波深度强化学习

从这个角度来看,AI 研究中一个极具吸引力的领域是深度强化学习深度强化学习神经网络建模和强化学习相结合。过去几十年来,深度强化学习一直可望而不可及。直到过去五年里,它强势发展为 AI 研究中最激烈的领域之一,在多种任务(比如视频游戏、扑克、多人游戏和复杂的棋盘游戏)中超越人类表现。

原论文 BOX 1 图 1:深度强化学习的代表性示例。

除了 AI 领域以外,深度强化学习似乎对心理学和神经科学也有着特殊的兴趣。深度 RL 中驱动学习的机制最初是受动物条件作用研究启发的,并被认为与基于奖励学习(以多巴胺为中心)的神经机制密切相关。

同时,深度强化学习利用神经网络来学习支持泛化和迁移的强大表征,而这正是生物大脑的核心能力。鉴于这些联系,深度 RL 似乎为对人类和动物学习感兴趣的研究者提供了丰富的想法和假设,无论是行为还是神经科学层面。而这些研究者也的确开始将目光转向深度强化学习

同时,对第一波深度强化学习研究的评论也敲响了警钟。乍一看,深度强化学习系统的学习方式与人类截然不同。有人认为,这种差异在于二者的样本效率。样本效率是指学习系统达到任何选定的目标性能所需的数据量。

根据这一衡量标准,最初的深度 RL 系统确实与人类学习者有着很大区别。为了在雅达利视频游戏等任务上达到媲美人类专家的水平,深度 RL 系统需要比人类专家多得多(多几个数量级)的训练数据 [22]。简而言之,最初的深度 RL 速度太慢,无法为人类学习提供可信的模型。

这一评论确实适用于自 2013 年出现的第一波深度 RL。但,此后不久,深度 RL 开始发生重要改变,其样本效率急剧提升。这些方法降低了深度 RL 对大量训练数据的需求,使其速度大大加快。这些计算技术的出现使得深度 RL 成为人类学习的候选模型,以及心理学和神经科学的见解来源。

本文中,DeepMind 研究人员认为有两个关键的深度 RL 方法缓解了其样本效率问题:episodic deep RL 和元强化学习。他们探索了这两种方法是如何加快深度 RL 的,并考虑了深度 RL 对于心理学和神经科学的潜在影响。

Episodic 深度强化学习:通过 episodic memory 进行快速学习

如果增量参数调整是深度 RL 学习速度慢的一个原因,那么一种解决方法是避免此类增量更新。但简单地增加学习率学习率控制梯度下降优化)会导致灾难性的干扰问题。

不过,近期研究表明还有另外一种解决方法:明确记录过去的事件,然后直接使用该记录作为制定新决策时的参考点。这就是 Episodic RL,它类似于机器学习中的「非参数」方法和心理学中的「基于实例」或「基于样本」的学习理论。

当遇到新场景、必须作出执行什么动作的决策时,该算法会对比当前场景的内部表示和过去场景的表示。之后根据与当前场景最相似的过去场景选择具备最高值的动作。

当内部状态表示是根据多层神经网络来计算时,我们将得到的算法叫做 episodic deep RL。该算法的示意图详见下图。

与标准增量方法不同,episodic deep RL 算法可直接利用过往事件中收集到的信息来指导行为。尽管 episodic deep RL 比较快,之前的深度强化学习方法比较慢,但是前者的快速学习依赖于缓慢的增量学习。正是连接权重的逐渐学习才使得系统形成有用的内部表示或每个新观测的嵌入。

这些表示的格式是通过经验学到的,所使用的方法正是构成标准深度 RL 骨干网络的增量参数更新。总之,episodic deep RL 的速度是这种较慢的增量学习促成的。也就是说,快速学习根植于慢速学习。

快速学习对慢速学习的依赖并非巧合。除了 AI 领域,这一原则还可应用于心理学和神经科学

Meta-RL:加速深度强化学习的另一方法

正如原论文前面介绍过的,除了增量式的更新,深度强化学习慢速的第二个原因在于较弱的归纳偏置(inductive bias)。正如偏差-方差权衡概念中所形式化的,快速学习要求学习者使用一组合理大小的假设(hypotheses),且这些假设描述了学习者将要面临的模式结构。假设配置地越狭隘,那么学习的速度就越快。

然而,正如前面所预示的,问题是只有在假设空间包含正确的假设情况下,收缩假设集才会加速学习过程。因此,现在出现了一个新的学习问题:学习者如何知道该采用什么样的归纳偏置?

该问题有一个非常自然的回答,即借鉴过去的经验。当然,这种想法显然在人类日常生活中也是非常自然的。例如我们想要学习使用新的智能手机,那么以前使用智能机或相关设备的经验将帮助学习过程。

也就是说,以前的经验会为「新手机如何工作」这个问题提供一个合理的假设集。这些初始的假设即对应于偏差-方差权衡中的「偏差」,它提供一种偏置信息来帮我们快速学习新的知识。

对于标准的深度学习,学习者并没有这些偏置信息,也就是会有较高的方差,所以学习者会考虑很大范围内的假设,从而希望找到那一个带有偏置的最优假设。

利用过去经验加速新学习过程,这在机器学习中被称为元学习。毫不奇怪,这个概念源自心理学,它也被称为「学习如何学习」。在第一篇使用元学习的论文中,Harlow [34] 通过一个实验巧妙地捕捉了它的原理。

他们发现猴子总能弄清楚一些简单规则,例如一个不熟悉的物体可能带来食物,另一个并不会,且不管这两个物体的左右顺序是什么样的。所以弄清这样简单规则后,再换两种不同的物体,它也只需一次学习就弄清到底哪个新物体能带来食物,这就是学习如何学习。

原论文 BOX 3 图 1 C:Harlow 的实验,它展示了训练中动物和智能体的行为变化。

现在再回到机器学习,最近很多研究工作都表明学习如何学习能够加速深度强化学习。这一通用观点可以通过多种方式实现,然而,Wang [37] 和 Duan [38] 等研究者提出了一种与神经科学和心理学特别相关的一种方法。

在他们的方法中,循环神经网络可以在一系列相互关联的强化学习任务中进行训练。因为网络中的权重调整非常慢,所以它可以获得不同任务中的通用知识,但不能快速调整以支持任意单个任务的解决方案。

在这种倩况下,循环神经网络的动态过程可以实现其独立的强化学习算法,因此能基于所有过去任务获得的知识,快速解决新的任务(如下图所示)。实际上,一个 RL 算法产生另一种强化学习算法,又可以称之为「meta-RL」。

强化学习图示。

与 Episodic 深度强化学习一样,Meta-RL 再次涉及快速和慢速学习之间的密切联系。循环神经网络的连接在不同任务中慢慢学习与更新,因此跨任务的一般原则或模式能「内嵌」到 RNN 的动态过程中。因此网络的不同动态过程(或时间步)能实现新的学习算法,也能快速解决某个新任务。

因为慢学习嵌入了足够多的知识,也就是足够有用的归纳偏置,所以快速学习就能建立在慢速学习的基础上了。

Episodic Meta-RL

重要的是,episodic deep RL 和 Meta-RL 并不是互相排斥的。近期研究发现了一种方法可以将二者融合起来,实现互补。在 episodic meta-RL 中,元学习发生在循环神经网络中。但它上面叠加了一个 episodic memory 系统,该系统使该循环神经网络中的活动模式复原。

和 episodic deep RL 一样,该 episodic memory 系统整理过去事件的集合,然后基于当前场景查询。但是,episodic meta-RL 不是将语境和值估计连接起来,而是将语境与来自循环神经网络内部或隐藏单元的存储活动模式连接起来。这些模式很重要,因为它们通过 meta-RL 总结出智能体从单个任务中学得的东西。

在 episodic meta-RL 中,当智能体遇到与过去事件类似的场景时,它首先复原之前事件的隐藏活动,允许之前学得的信息直接作用于当前的策略。episodic memory 允许系统识别之前遇到的任务,然后检索已经存储的解决方案。

通过在 bandit 任务和导航任务中的模拟,Ritter 等人 [39] 展示了 episodic meta-RL 和原版 meta-RL 一样学习强大的归纳偏置,使其能够快速解决新任务。

更重要的是,当面临之前见过的任务时,episodic meta-RL 直接检索并复原之前发现的解决方案,避免重新探索。在遇到新任务时,系统受益于 meta-RL 的快速性;在第二次或之后再遇到时,系统受益于 episodic control 带来的 one-shot 学习能力。

最后,文章一作 Matthew Botvinick 曾发表演讲,详细介绍了强化学习的快与慢。感兴趣的读者,请戳:

原文地址:https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

理论DeepMind深度强化学习元学习
3
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增量学习技术

增量学习作为机器学习的一种方法,现阶段得到广泛的关注。对于满足以下条件的学习方法可以定义为增量学习方法: * 可以学习新的信息中的有用信息 * 不需要访问已经用于训练分类器的原始数据 * 对已经学习的知识具有记忆功能 * 在面对新数据中包含的新类别时,可以有效地进行处理

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~