策略梯度学习

Policy Gradient是一种策略搜索强化学习方法，求解强化学习问题的一种方法，类似于SVM——不估计后验概率而直接优化学习目标。

来源：知乎