斯坦福人工智能实验室新研究:用于情节强化学习的政策证书和 Minimax 最佳 PAC 界限
经验以及理论研究的关键目标是设计一个能够找到附带尽可能少的样本的好策略。理论来说,主要有 regret 以及 PAC 界限两种方法来测量以及保证方法的样本效率。理想情况下,研究人员都期待算法能够在两种标准下均展示出良好的性能。然而,在一种名为 tabular episodic MDPs 的特定环境下,最新的算法能够接近 regret bounds 最佳值,但却无法接近 PAC 标准下的最优值。近日,斯坦福人工智能实验室在一篇名为「用于情节强化学习的政策证书和 Minimax 最佳 PAC 界限」的新博客中展示了一种新方法,弥补了这一差距,该方法实现了 Minimax 最优 PAC(以及 regret)界限,这些界限与主导术语中的统计最坏情况下界相匹配。