2021/09/16 14:09

小舟编辑

DeepMind联合UCL，推出2021强化学习最新课程

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程，目前已全部上线。

DeepMind 作为全球顶级 AI 研究机构，自 2010 年创建以来已有多项世界瞩目的研究成果，例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。

近几年，DeepMind 联合伦敦大学学院（UCL）推出了一些人工智能线上课程，今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授，旨在为学生提供对现代强化学习的全面介绍。

课程主页：https://deepmind.com/learning-resources/reinforcement-learning-series-2021

课程介绍

本次课程共包括 13 节，涵盖了顺序决策问题中强化学习和规划的基础知识，并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题，包括马尔科夫决策过程（MDP）、基于样本的学习算法（例如双 Q 学习、SARSA）、深度强化学习等，还探讨了一些更高级的主题，包括 off-policy 学习、多步更新和资格迹（eligibility traces），以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲强化学习简介：DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容，然后讲解了强化学习与 AI 的关系。

第 2 讲探索与控制：Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动态规划：DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。

第 4 讲动态规划算法的理论基础：Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理（contraction mapping）。

第 5 讲无模型预测：Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。

第 6 讲无模型控制：Hado van Hasselt 讲解了用于策略改进的预测算法，以产生可以从采样经验中学习良好行为策略的算法。

第 7 讲函数近似：Hado van Hasselt 讲解了如何将深度学习与强化学习结合，以实现「深度强化学习」。

第 8 讲规划与模型：DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型，包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

第 9 讲策略梯度和 Actor-Critic 方法：Hado van Hasselt 讲述了可以直接学习策略的策略算法，并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。

第 10 讲近似动态规划：Diana Borsa 讲解了近似动态规划算法，探讨了如何从理论的角度分析近似算法的性能。

第 11 讲多步和 off-policy：Hado van Hasselt 讲解了多步和 off-policy 算法，包括多种减小方差的方法。

第 12 讲深度强化学习 #1：Matteo Hessel 讲解了深度强化学习的实际要求和具体算法，以及如何使用自动微分（Jax）来实现。

第 13 讲深度强化学习 #2：Matteo Hessel 讲解了通用价值函数（general value functions）、基于 GVF 的辅助任务，并进一步讲解了如何处理算法中的扩展问题。

DeepMind 研究者亲自授课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

Hado van Hasselt 是 DeepMind 的一名研究科学家，也是伦敦大学学院（UCL）的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学，他的研究兴趣包括人工智能、机器学习、深度学习，并重点研究强化学习。

Diana Borsa

Diana Borsa 是 DeepMind 的研究科学家，也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能（AGI），涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。

Matteo Hessel

Matteo Hessel 是 DeepMind 的一位研究工程师，也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文，这些论文的引用次数超过 4000 次，并获得了 2 项注册专利。

入门在线课程UCLDeepMind强化学习

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

动态规划技术

动态规划（也称为动态优化），是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的，通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题，只解决一次子问题并存储它的解决方案（solution），下一次遇到同样的子问题时无需重新计算它的解决方案，而是简单地查找先前计算的解决方案，从而节省计算时间。动态规划适用于有最优子结构（Optimal Substructure）和重叠子问题（Overlapping Subproblems）性质的问题。

来源：Wikipedia

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

顺序决策问题技术

即效用取决于一系列决策的问题

来源：Robbins, H. (1956). A sequential decision problem with a finite memory. Proceedings of the National Academy of Sciences, 42(12), 920-923.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

多智能体系统技术

一个多智能体系统，是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法，函数，过程，搜索算法或加强学习来实现。尽管存在相当大的重叠，然而一个多智能体系统并不总是一个基于智能体的模型表现一致。

来源：维基百科

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

来源：机器之心 DeepMind博客

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia

围棋技术

围棋是一种策略性棋类，使用格状棋盘及黑白二色棋子进行对弈。起源于中国，中国古时有“弈”、“碁”、“手谈”等多种称谓，属琴棋书画四艺之一。西方称之为“Go”，是源自日语“碁”的发音。

来源：维基百科