微软研究人员为现代强化学习开发一种新的统计理论
机器之心消息,微软研究人员近日开发了一篇名为《通过潜在状态解码进行丰富观察,效率极高的 RL》的论文,介绍了一种可证明具有数据效率的强化学习算法。该算法通过利用有监督的学习来学习表达。该研究的监督学习者使用观察来预测「后向转移概率」- 先前行为的分布和先前观察的状态表示。研究人员们从受监督学习者的预测中构建状态表示。由于直觉是由语义相似的行为引起的观察将引发相同的预测,因此它们将被折叠成单个基础状态。研究人员将该算法命名为为「通过归纳解码进行策略覆盖(Policy Cover by Inductive Decoding)」。据了解,该研究将在 6 月的 ICML 2019 大会上发表。