导读
规范博弈(specification gaming)是一种满足了目标的字面规范(literal specification),但没有实现预期结果的现象[1] (与之相近的概念包括奖励错误规范(reward misspecification)和外部不对齐(outer misalignment))。我们都经历过规范博弈现象。如果学生会因家庭作业做得好而获得奖励,他们可能会抄袭另一个学生的作业以获得正确的答案,而不是自己学习,这就是利用了任务规范中的漏洞。
这个问题也出现在智能体的设计中。例如,一个强化学习智能体可以找到一条捷径,使其在没有完成设计者预期任务的情况下获得大量奖励。这些行为是常见的,在DeepMind和其他研究人员的努力基础上,我们在中文版AI对齐失败数据库列举了超过 70个案例。在本文中,我们将回顾规范博弈的可能原因,分享在实践中的示例,并重点介绍应对这种现象的一些最新研究。
通过一个简单的例子介绍规范博弈
在乐高积木堆叠任务中,期望的结果是一块红色的积木最终落在一块蓝色的积木上。根据研究人员设计的奖励机制,当智能体没有接触到红色方块时,智能体会根据红色方块底面的高度获得奖励。智能体没有执行相对困难的动作——拿起红色方块并将其置于蓝色方块之上,而是简单地翻转红色方块以获得奖励。这种行为实现了规定的目标(红色方块的底面高度),但牺牲了设计者实际关心的目标(将其堆叠在蓝色方块的顶部)。
来源:Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation [2]
在本文中,我们关注强化学习环境中的规范博弈,其中奖励信号是使策略改变的主要机制。这种场景下的规范博弈也被称为奖励破解(reward hacking)。如果模型优化一个不完善的代理奖励函数,最终导致真正的奖励函数表现不佳时,就出现了奖励破解行为。奖励破解的第一个正式定义是由Skalse等人于2022年提出的 [3],但它也可以被视为Goodhart定律的体现,长期以来的观察表明,优化代理奖励往往会导致错误的实例化 [4]。
根本的问题在于,我们很难设计一个任务规范(奖励功能、环境等)来涵盖给定任务的众多需求。在乐高积木任务中,仅规定红色积木的底面必须高出地面是不够的,因为智能体只需翻转红色积木即可实现这一目标。一个更全面的对期望结果的规范还应该包括:红色块的顶面必须高于底面,底面与蓝色块的顶面的对齐。在规范结果时,我们很容易忽略其中一个标准,从而使规范过于宽泛,并可能被不好的解决方案更轻易实现。
在现实世界中,奖励设计者在处理复杂且经常相互冲突的需求时,通常会求助于优化代理奖励,这种奖励比正确的奖励更容易衡量或优化。例如,考虑一个旨在优化用户主观幸福感(subjective well-being)的推荐系统。由于用户主观幸福感很难衡量,工程师会依赖于更具体的指标,如点击率或观看时间。针对错误规范的代理奖励进行优化会导致YouTube过度重视观看时间,损害用户满意度 [5],并向用户推荐极端政治内容 [6]。
通过进一步的例子加深我们的理解
奖励函数错误规范的一个直接原因是奖励塑造设计不当。为了让智能体更容易学习一些目标,奖励塑造在解决任务的过程中给予智能体一些奖励,而不是只对最终结果进行奖励。然而,如果奖励不是基于潜力(potential-based)的,那么奖励塑造可能会改变最佳策略。比如,在游戏《Coast Runners》中,智能体控制着一艘赛艇,其预期目标是尽快完成比赛。智能体因撞到布置在赛道上的绿色方块而获得塑造奖励,而这使智能体将最佳策略改为原地绕圈,反复撞到相同的绿色方块。
来源:Faulty Reward Functions in the Wild [7]
另一种可能是,我们可以从人类的反馈中学习奖励函数,而不是试图创建一个涵盖所有可能情况的规范。在这种方法中,人类评估结果是否已经实现,这通常比明确地指定结果更容易。然而,如果奖励模型没有学习到真正反映设计者偏好的真实奖励函数,也可能会遇到规范博弈问题。一个可能的原因是用于训练奖励模型的人类反馈不准确。例如,执行抓取任务的智能体学会了通过悬浮在相机和物体之间来愚弄人类评估者。
来源:Deep Reinforcement Learning From Human Preferences [8]
数据不足也会导致不良的泛化能力。Stiennon等[9]使用人类比较数据训练奖励模型,以提高语言模型的总结能力。然而,这个奖励模型只是人类偏好的代理,只代表了来自狭窄分布的少量比较数据。针对这个奖励模型进行的优化最初根据人类数据改进了总结能力,但最终过拟合,导致样本退化。
这与Pan等[10]的研究相一致,他们发现与能力较差的智能体相比,更有能力的智能体经常利用奖励的错误规范,以获得更高的代理奖励和更低的真实奖励。研究人员构建了4个示例环境,共有9个代理奖励,以研究奖励破解是如何随着优化能力的变化而变化的。他们以几种不同的方式提高了优化能力,例如增加训练步骤或模型参数量。总的来说,作者发现在9个示例中有5个发生了奖励破解行为。此外,作者在其中4种情况下观察到了相变(phase transitions):仅仅略微增加优化能力就会导致奖励破解行为急剧增加。随着机器学习系统在未来变得更加先进,这种相变对监控机器学习系统的安全性提出了挑战。
缓解措施
规范博弈有哪些潜在解决方案?
Pan等提出的一种方法是异常检测器(anomaly detectors),它估计给定策略和可信策略之间的距离;可信策略指的是经过人类验证、具有可接受的(但不是最大的)奖励值的策略。一旦我们能够检测到异常策略,我们就可能可以通过例如调整训练目标的方式来排除它们。
在基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)中,定期使用新的人工反馈数据来训练新的奖励模型的在线训练方式可以帮助防范过度优化[11]。
然而,Skalse等对奖励函数的可破解性和简化做出形式化定义的研究表明,只有在严格的条件下才能设计出严格不可破解的奖励函数[3]。因此,对这个问题感兴趣的研究人员可能希望探索控制或限制优化的技术,或尝试不基于优化奖励函数的方法。
结论
我们的AI对齐失败数据库显示出了问题的普遍性,以及智能体规范博弈的多种方式。这些问题在未来可能会变得更加具有挑战性,因为AI系统变得更有能力以牺牲预期结果为代价来满足任务规范。
随着我们创造更先进的智能体,我们将需要专门针对规范问题的设计原则,并确保这些智能体可靠地追求设计者预期的结果。
参考文献 [1] Krakovna, V. et al (2020, April 22). Specification Gaming: The Flip Side of AI Ingenuity. DeepMind Safety Research. https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity. [2] Popov, I .et al (2017). Data-efficient deep reinforcement learning for dexterous manipulation. arXiv preprint arXiv:1704.03073. [3] Skalse, J. et al (2022). Defining and Characterizing Reward Hacking. arXiv preprint arXiv:2209.13085. [4] Goodhart, C. A. (1975). Monetary relationships: A view from threadneedle street in papers in monetary economics. Sydney: Reserve Bank of Australia. [5] Stray, J. (2020). Aligning AI optimization to community well-being. International Journal of Community Well-Being, 3(4), 443-463. [6] Ribeiro, M. et al (2020, January). Auditing radicalization pathways on YouTube. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 131-141). [7] Clark, J. et al. (2016, December 21). Faulty Reward Functions in the Wild. OpenAI. https://openai.com/blog/faulty-reward-functions/ [8] Christiano, P. F. et al (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. [9] Stiennon, N. et al (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021. [10] Pan, A. et al (2022). The effects of reward misspecification: Mapping and mitigating misaligned models. arXiv preprint arXiv:2201.03544. [11] Bai, Y. et al (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.