论文标题:Beyond Preferences in AI Alignment 论文地址:https://arxiv.org/pdf/2408.16984
人类在行事时甚至都不能大致遵循理性选择理论; 没有理由认为高级 AI 必定会最大化某个效用函数; 人类偏好是推断出来的或构建起来的,因此将 AI 的行为与我们表述出来的偏好对齐是错误的方向;相反,我们可以将 AI 直接与「优秀助手 / 程序员 / 司机等」规范性理想目标对齐; 聚合人类的偏好充满哲学和数学困难;我们的目标不应该是让 AI 与「人类的集体意志」对齐。
将理性选择理论作为描述性框架。人类行为和决策被很好地建模为近似地满足最大化偏好,这可以表示为效用或奖励函数。 将预期效用理论作为规范标准。理性可以被描述为预期效用的最大化。此外,应根据这一规范标准设计和分析 AI 系统。 将单主体对齐作为偏好匹配。对于要与单个人类主体对齐的 AI 系统,它应尽可能地满足该人类的偏好。 将多主体对齐作为偏好聚合。为了使 AI 系统与多个人类主体对齐,它们应以最大限度地满足其总体偏好。
人类决策的带噪理性模型; 将奖励和效用函数用作人类偏好的表征; 将偏好用作人类价值和理性的表征。
将预期效用理论用作一个分析视角; 将全局一致性智能体作为设计目标; 偏好作为动作的规范基础。
标量和非情境奖励的对齐; 静态和非社交偏好的对齐; 偏好作为对齐的目标。
简单的效用主义偏好聚合; 将总体偏好用作对齐目标。