深度策略梯度算法是真正的策略梯度算法吗?
近期深度强化学习取得了很多成功,但也存在局限性:缺乏稳定性、可复现性差。来自 MIT 和 Two Sigma 的研究者发表论文《Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?》,重新检验了深度强化学习方法的概念基础,即目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?该论文研究了深度策略梯度算法对促进其发展的底层概念框架的反映程度。研究者基于该框架的关键要素对当前最优方法进行了精细分析,这些方法包括梯度估计、价值预测、最优化 landscape 和置信域分析。研究发现,从这个角度来看,深度策略梯度算法的行为通常偏离其概念框架的预测。研究者的分析开启了巩固深度策略梯度算法基础的第一步,尤其是,我们可能需要抛弃目前以基准为中心的评估方法。