Yann LeCun等人提出模型预测策略学习论文
只靠观察数据学习策略非常具有挑战性,因为它在执行时间引起的状态分布可能与训练时观察到的分布不同。在论文《Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic》中,研究人员提出通过随多个时间步骤展开环境动态学到的模型来训练一个策略的方法,同时明确地惩罚了两个成本:优化策略时的原始成本;表示训练状态离散的不确定成本。最后,研究人员使用大规模驾驶行为数据集对此方法进行了评估,结果显示能够从存粹的观察数据中有效学习驾驶策略,不去要环境交互。