人工智能系统的能力越来越强,但有时它们会在追求人类不期望的目标时做出令人惊讶的事情。为了引起人们对这一现象的关注, DeepMind研究人员收集了两种类型共70多个AI对齐失败的例子。
在此基础上,安远AI为原数据库补充了更多大模型对齐失败实例,并将全部实例翻译并发布至「AI对齐失败数据库」中文社区站点,以便中国用户进一步了解。
谈到这个项目的意义时,机器之心相关负责人表示 “开发人员和用户需要了解人工智能系统可能发生故障的方式,以及此类故障的常见程度,以避免在更广泛的系统部署中造成严重后果。我们认为该数据库的发布是朝着这个目标迈出的重要一步,并且很高兴能与安远AI以及机器学习社区一起继续发展该项目。”
安远AI的创始人谢旻希在解释该数据库的目标受众时说:“我们希望人工智能研究人员能够探索该数据库,并为其进一步发展做出贡献。我们也希望这对有兴趣了解当前人工智能系统的局限性的人来说是一个有益的资源,包括媒体和政策界人士。”
AI对齐失败的两个主要来源
该数据库的两类主要的AI对齐失败实例:规范博弈(specification gaming)和目标错误泛化(goal misgeneralization)。
- 当人工智能系统的行为满足了目标的字面规范但未达到预期结果时,就会发生规范博弈。这发生在对训练数据提供不良反馈的情况下,也就是说,即使输出没有准确地符合系统设计者所期望的最终结果,也会得到奖励。
考虑在 Coast Runners 游戏中控制船只的智能体实例。预期目标是尽快完成划船比赛,玩家通过击中沿路线布置的目标来获得更高的分数。为了帮助智能体完成这项任务,它获得了沿着赛道击中绿色方块的奖励。然而,这个不当的奖励设计改变了智能体的最佳策略,使其不停原地转圈反复命中同一些绿色块。
资料来源:在实际场景下出错的奖励函数(Amodei & Clark,2016)
当学习系统在训练中实现预期目标,但在分布外有效地追求一个非预期目标时,就会发生目标错误泛化。
让我们考虑CoinRun环境中的一个实例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合(episode)。经过训练后,智能体能够在训练环境中有效地移动到关卡的右端。但在测试环境中,智能体通常会完全忽略硬币,直接前进到关卡的右端。
CoinRun目标错误泛化实例
这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。在训练分布中,代理目标与预期目标完全相关,并且似乎比预期目标更容易学习;但因为“目标”泛化错误,测试的奖励很低。
如何使用?
访问「AI对齐失败数据库」中文社区站点
https://sota.jiqizhixin.com/alignment-db
提交「AI对齐失败」案例
https://sota.jiqizhixin.com/alignment-db/submit
提交反馈
我们非常重视关于如何改进数据库的反馈意见 - 如果您有任何意见,请发送电子邮件至 sota@jiqizhixin.com。
关于发起方:安远AI
安远AI的使命是融合各方,推动新兴科技长远向善发展,引领人机关系走向安全、可信、可靠的未来。安远AI面向人工智能安全和风险前沿问题推动国际交流、开展治理研究、提供战略咨询、以及建立技术社区。
关于「AI对齐失败数据库」中文社区站点运营合作伙伴:机器之心SOTA!模型社区
作为专注服务中国AI开发者的第三方平台, 「SOTA!模型」社区在对每日学界、业界最新的SOTA工作进行追踪的同时,汇总原作团队、社区用户所放出的模型文件、实现代码、数据集等开发资源,帮助用户快速上手尝试新技术。目前社区已收录超过17000个模型资源,覆盖超过1000个AI任务。
延伸阅读 1. 规范博弈: https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml 2. 目标错误泛化: https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml