网络中的「迷信」:深度强化学习尝试欺骗性游戏
来自纽约大学,斯特拉斯克莱德大学,马斯特里赫特大学以及赫特福德大学的研究人员发表了一篇名为「网络中的「迷信」:深度强化学习尝试欺骗性游戏」的新研究。以下是该论文的完整摘要:深度强化学习目前位为止学会了很多游戏,也在很多游戏中失败过。为了更好地描述深度强化学习者失败的模式和原因,研究人员在四种具有欺骗性的游戏中测试了被广泛使用的 Asynchronous Actor-Critic (A2C) 算法。这些游戏是专为游戏智能体所设计的,并在通用视频游戏的人工智能框架中得到过实现。这使研究人员能够将基于强化学习的代理的行为与基于树搜索的规划代理进行比较。研究结果表明,其中一些游戏可靠地欺骗了深层强化学习者,并且由此产生的行为突出了学习算法的缺点。智能体失败的特定方式与基于规划的智能体失败的方式并不相同,进一步说明了这些算法的特征。研究人员提出了一种欺骗的初始类型,可以帮助更好地理解(深层)强化学习的陷阱和失败模式。