2019/11/19 09:08

解读！清华、谷歌等10篇强化学习论文总结

强化学习（Reinforcement Learning，RL）正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同，强化学习强调智能体（agent）与环境（environment）的交互，交互过程中智能体需要根据自身所处的状态（state）选择接下来采取的动作（action），执行动作后，智能体会进入下一个状态，同时从环境中得到这次状态转移的奖励（reward）。

强化学习的目标就是从智能体与环境的交互过程中获取信息，学习状态与动作之间的映射，指导智能体根据状态做出最佳决策，最大化获得的奖励。

在强化学习系统中，除了智能体和环境，重要元素还包括价值函数（value function）、策略（policy）以及奖励信号（reward signal）。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中，奖励是智能体在某个状态执行动作后立即得到的反馈，而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。

本文对近两年来发表在ICLR、ICML等AI顶会上有关强化学习的论文进行了解读，以飨读者。

Ask the Right Questions：Active Question Reformulation with Reinforcement Learning

论文作者：Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang（谷歌）

论文地址：https://arxiv.org/pdf/1705.07830v2.pdf

总结：本文将问答看做一个强化学习任务，主要思想是在用户和问答系统之间增加一个问题重构模块。该模块可以将用户问题改写成不同形式，这些改写后的问题可以通过问答系统得到多个答案，该模块再从这些答案中选择质量最高的回答返回给用户。问题重构模块的核心是一个类似机器翻译的sequence-to-sequence模型，该模型首先通过单语语料预训练，之后使用Policy Gradient进行强化学习的训练过程，目标是使问答系统得到最佳回答的奖励。

Go for a Walk and Arrive at the Answer：Reasoning over Paths in Knowledge Bases using Reinforcement Learning

论文作者：Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum（马萨诸塞大学，卡内基梅隆大学，德克萨斯大学奥斯汀分校，亚马逊）

论文地址：https://arxiv.org/pdf/1711.05851.pdf

总结：本文提出了MINERVA算法解决知识图谱中的自动推理问题。MINERVA算法主要用于基于知识图谱的自动问答：给定三元组中的关系和其中一个实体，补全另一个实体。作者采用基于路径搜索的方法，从已知的实体节点出发，根据问题选择合适的路径到达答案节点。作者将问题形式化为一个部分可观察的马尔可夫决策过程，将观察序列和历史决策序列用基于LSTM的策略网络表示。LSTM的训练使用了Policy Gradient方法。

Active Neural Localization

论文作者：Devendra Singh Chaplot, Emilio Parisotto, Ruslan Salakhutdinov（卡内基梅隆大学）

论文地址：https://www.aminer.cn/pub/5a9cb66717c44a376ffb8b95/active-neural-localization

总结：本文介绍了Active Neural Localization模型，根据给定的环境地图和智能体的观察，可以估计出智能体的位置。该方法可以直接从数据学习，并主动预测智能体行动来获得精确和高效的定位。该方法结合了传统的filter-based定位方法和策略模型，可以使用强化学习进行end-to-end训练。模型包括一个感知模型和一个策略模型，感知模型根据当前智能体的观测计算可能位置的信念（Belief），策略模型基于这些信念估计下一步行动并进行精确定位。

The Reactor：A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

论文作者：Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos（DeepMind）

论文地址：https://arxiv.org/pdf/1704.04651.pdf

总结：本文提出了Reactor模型，该模型结合了off-policy经验回放的低样本复杂度和异步算法的高训练效率两方面优点，比Prioritized Dueling DQN和Categorical DQN有更低的样本复杂度，同时比A3C有更低的运行时间。作者在模型中使用了多个技术，包括：新的策略梯度算法beta-LOO，多步off-policy分布式强化学习算法Retrace，prioritized replay方法以及分布式训练框架。

Reinforcement Learning for Relation Classification from Noisy Data

论文作者：Jun Feng,Minlie Huang,Li Zhao,Yang Yang,Xiaoyan Zhu（清华大学，微软亚洲研究院，浙江大学）

论文地址：https://www.aminer.cn/pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data

总结：现有的关系分类方法主要有两个局限性：无法进行sentece-level的关系分类；依赖远程监督（distant supervision）标注的数据，但标注数据中存在较大误差。本文介绍了一个sentence-level的关系分类算法。算法由两个部分组成，分别是“instance selector”和“relation classifier”。Instance selector用于选取质量高的句子作为relation classifier的训练数据，该过程可以看做一个强化学习问题。作者分别定义了Instance selector的动作空间，状态空间和奖励函数，并给出了基于Policy Gradient的优化方法。

Learning Structured Representation for Text Classification via Reinforcement Learning

论文作者：Tianyang Zhang, Minlie Huang,Li Zhao（清华大学，微软亚洲研究院）

论文地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf

总结：本文提出了一个基于深度学习的句子表示算法，可以针对任务学习句子的结构化表示。该算法不需要解析树或其他显示的结构化表示标注作为输入，而是通过训练数据自动效识别与任务相关的句子结构。作者使用强化学习的方法构建任务相关的句子结构表示，模型由三部分组成，分别是Policy Network （PNet），Structured Representation Model和Classification Network （CNet），PNet为句子产生一个动作序列，Structured Representation Model将动作序列转化为结构化表示，CNet提供奖励信号，模型参数可以使用Policy Gradient方法优化。

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

论文作者：Anusha Nagabandi， Gregory Kahn， Ronald S. Fearing， Sergey Levine（加州大学伯克利分校）

论文地址：https://www.aminer.cn/pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free

总结：本文提出了一种新的model-based的强化学习学法，并可以用于初始化model-free的算法。作者提出的model-based算法使用神经网络拟合动力学模型，并结合了MPC（model predictive control）。作者使用model-based优化得到的动力学模型作为model-free算法的初始化，可以同时保留model-based算法样本复杂度小，model-free算法泛化能力强两方面的优势。

Learning to Collaborate：Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

论文作者：Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou, Zhirong Wang, Xiaoyan Zhu（清华大学，阿里巴巴）

论文地址：https://arxiv.org/pdf/1809.06260v1.pdf

总结：本文提出了一个多场景联合排序算法，目标是提高多场景的整体效果。多场景之间存在博弈关系，单个场景提升无法保证整体提升。本文将多场景排序看做一个完全合作，部分可观测的多智能体序列决策问题，并采用多智能体强化学习的框架建模。作者提出了MA-RDPG（Multi-Agent Recurrent Deterministic Policy Gradient）算法，利用DRQN对用户的历史信息建模，同时用DPG对连续状态和连续动作空间进行探索。

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

论文作者：Meng Qu，Jian Tang，Jiawei Han（伊利诺伊大学香槟分校）

论文地址：https://www.aminer.cn/pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning

总结：本文将深度强化学习应用到了异构星型网络的表示学习中。在异构星型网络表示的学习过程中通常需要采样一系列的边来得到点之间的相似性，作者发现这些边的顺序会显著影响表示学习的效果。作者借鉴了课程学习（Curriculum Learning）的思想，研究如何在网络表示学习中学习这些边的采样顺序。该问题可以形式化为马尔可夫决策过程，作者提出了一个基于深度强化学习的解决方法。

Soft Actor-Critic：Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

论文作者：Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine（加州大学伯克利分校）

论文地址：https://arxiv.org/pdf/1801.01290.pdf

总结：本文提出了soft actor-critic算法。该算法是一个基于最大熵强化学习的off-policy actor-critic算法，在最大化奖励的同时最大化熵，让动作尽可能随机。作者证明了算法的收敛性，并在多个benchmark上超越了已有的on-policy或off-policy的算法。

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

入门清华大学谷歌论文强化学习

相关技术

区块链技术云计算机器学习

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法，最常用到的排序方式是数值顺序以及字典顺序。基本上，排序算法的输出必须遵守下列两个原则：输出结果为递增序列（递增是针对所需的排序顺序而言）；输出结果是原输入的一种排列、或是重组。

来源：维基百科

非监督学习技术

非监督式学习是一种机器学习的方式，并不需要人力来输入标签。它是监督式学习和强化学习等策略之外的一种选择。在监督式学习中，典型的任务是分类和回归分析，且需要使用到人工预先准备好的范例(base)。一个常见的非监督式学习是数据聚类。在人工神经网络中，自组织映射（SOM）和适应性共振理论（ART）则是最常用的非监督式学习。

来源：Wikipedia

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

解析树技术

解析树是一个内部结构，由编译器或解释器在解析一些语言结构时创建，解析也被称为“语法分析”。

来源：Wikipedia

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

策略网络技术

在强化学习中，策略网络指一组相对稳定的关系，这些关系具有非等级和相互依赖的性质，将各个行为者（actor）联系起来。

来源：igi-global

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型，为动态规划与强化学习的最优化问题提供了有效的数学工具，广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时，我们一般特指其在离散时间中的随机控制过程：即对于每个时间节点，当该过程处于某状态(s)时，决策者可采取在该状态下被允许的任意决策(a)，此后下一步系统状态将随机产生，同时回馈给决策者相应的期望值，该状态转移具有马尔可夫性质。

来源：Reinforcement Learning: An Introduction, by R. Sutton and A. G. Barto； Algorithms for Reinforcement Learning, by C. Szepesvari

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

关系分类技术

关系分类旨在将文本中给定实体的关系分类为预定义类。

来源：github

远程监督技术

该方法由 M Mintz 于 ACL2009 上首次提出，与传统预先定义关系类别不同，Distant Supervision 通过将知识库与非结构化文本对齐来自动构建大量训练数据，减少模型对人工标注数据的依赖，增强模型跨领域适应能力。

来源：机器之心