DeepMind 新论文「设计智能体激励措施以避免副作用」
DeepMind 今天发布新博客文章。文章介绍道:设计智能体对于惩罚的激励有助于在训练智能体时避免不必要的副作用,但这些处罚仍然会产生不良行为。DeepMind 文章比较了不同惩罚机制的设计选择,并展示如何避免这种副作用。人工智能安全的一个主要挑战是可靠地指定人工智能系统的偏好。目标的不正确或不完整的规范就可能会导致不良行为。以强化学习智能体为例,其任务是携带一个从 A 点到 B 点的盒子,为了让盒子尽快到达 B 点而获得奖励。如果恰好在通往 B 点的最短路径上有一个花瓶,那么智能体就没有动力绕过花瓶,因为奖励并没有说明花瓶的任何内容。由于智能体不需要打破花瓶到达 B 点,打破花瓶是一个副作用:那么环境的破坏对于实现其目标则就是不必要的。