「AI对齐失败数据库」是一个用于追踪“即机器学习系统的目标与人类的设计意图不一致”实例的社区项目,由安远AI发起。在整理和翻译“规范博弈”和“目标错误泛化”两类失败问题的基础上,我们正在拓展大模型以及更多类型的对齐失败问题,帮助研发人员和用户了解AI系统的风险和局限。欢迎社区共同参与数据库的探索和构建。
共 15 篇文章
登录