安远AI | 机器之心

AI对齐失败数据库

「AI对齐失败数据库」是一个用于追踪“即机器学习系统的目标与人类的设计意图不一致”实例的社区项目，由安远AI发起。在整理和翻译“规范博弈”和“目标错误泛化”两类失败问题的基础上，我们正在拓展大模型以及更多类型的对齐失败问题，帮助研发人员和用户了解AI系统的风险和局限。欢迎社区共同参与数据库的探索和构建。

共 15 篇文章