伯克利新论文:世界状况隐含的偏好
伯克利大学今天发表了一篇学术博客,介绍了他们最新被 ICLR 2019 收录的一篇论文:Preferences Implicit in the State of the World。以下是论文摘要:强化学习(RL)代理仅优化奖励函数中指定的特征,并且对无意中遗漏的任何内容无动于衷。这意味着我们不仅要指定要做什么,还要做更大的不做的空间。很容易忘记这些偏好,因为这些偏好已经在我们的环境中得到满足。这激发了我们的关键洞察力:当机器人部署在人类所处的环境中时,环境状态已经针对人类的需求进行了优化。因此,我们可以使用来自州的隐含偏好信息来填补空白。我们开发了一种基于最大因果熵 IRL 的算法,并用它来评估一套概念验证环境中的想法,该环境旨在显示其属性。我们发现来自初始状态的信息可用于推断应避免的副作用以及如何组织环境的偏好。