策略搜索是强化学习的一个子领域,重点是为给定的策略参数化寻找好的参数。因为它可以处理高维的状态和动作空间而非常适合机器人技术,这个领域正是机器人学习的主要挑战之一。
策略搜索分为基于模型的搜索和无模型的搜索策略。其中无模型的策略搜索方法直接基于采样的轨迹学习策略,基于模型的使用了采样的轨迹来首先构建一个状态动态模型,然后使用这个模型进行策略改进。
如图所示,在基于模型的情况(右子树)中,数据被用来学习对应的的模型(蓝色盒子)。然后这个模型被用来生成轨迹。在这里,我们区分随机轨迹和确定性轨迹。无模型策略搜索(左子树)直接使用数据作为更新策略的轨迹。在无模型和基于模型的策略搜索(绿色块)中,策略更新都基于策略梯度(PG)、期望、最大化(EM)更新或信息理论洞察(Inf.Th)。[描述来源:Deisenroth M P, Neumann G, Peters J. A Survey on Policy Search for Robotics[M]. Now Publishers Inc. 2013.]
发展历史
策略搜索早在1987年就被提出了,近期,学者将这个算法应用到机器人的相关搜索中,获得了很大的成功。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1987-1992 | 在强化学习算法中引入了策略搜索的概念 | R. J. Williams. A class of gradient-estimating algorithms for reinforcement learning in neural networks. In Proceedings of the IEEE First International Conference on Neural Networks, San Diego, California, 1987.; R. J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3):229–256, 1992. |
3 | 2000 | 针对马尔科夫决策和部分可观察的马尔科夫决策针对性地提出了一种新的搜索策略 | Jordan M I, Ng A Y. PEGASUS: A Policy Search Method for Large MDPs and POMDPs[J]. Eprint Arxiv, 2000:406-415. |
4 | 2011 | 将策略搜索应用到机器人的运动搜索中 | Kober J, Peters J R. Policy search for motor primitives in robotics[C]//Advances in neural information processing systems. 2009: 849-856.;Levine S, Abbeel P. Learning neural network policies with guided policy search under unknown dynamics[C]//Advances in Neural Information Processing Systems. 2014: 1071-1079. |