深度学习元老 Jürgen Schmidhuber 团队新作:使用颠倒强化学习训练智能体
包括 LSTM 发明人、深度学习元老,Jürgen Schmidhuber 在内的来自 NNAISENSE 以及 The Swiss AI Lab IDSIA 的研究团队近日发表了一篇名为「使用颠倒强化学习训练智能体」的研究。以下是该研究的完整摘要分享:传统的强化学习(RL)算法要么通过价值函数预测回报,要么使用策略搜索最大化回报。该团队研究了一种替代方法:颠倒强化学习,主要使用监督学习技术解决强化学习问题。随附报告概述了其许多主要原则。该研究我们介绍颠倒强化学习的第一个具体实现,并证明其在某些情景学习问题。实验结果表明,它的性能可以与数十年来研究开发的传统基线算法相媲美,甚至可以超越传统基线算法。