
编辑丨coisini
领先的人工智能公司越来越专注于构建通用 AI 智能体,旨在让系统能够自主规划、行动并追求目标,几乎涵盖人类能够执行的所有任务。虽然这些系统可能非常有用,但不受约束的 AI 智能体对人类安全构成了重大风险。
一些学者认为我们迫切需要一种更安全且仍具实用性的替代方案,以取代当前以智能体为导向的发展路径。
最近,图灵奖得主 Yoshua Bengio 以第一作者身份发表了一篇论文 ——《Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?》。该论文提出了一种在设计上可信且安全的非智能体 AI 系统 ——Scientist AI。

论文地址:https://arxiv.org/abs/2502.15657
Scientist AI 旨在通过观察来解释世界,而不是在其中采取行动以模仿或取悦人类。它包含一个生成理论以解释数据的世界模型,以及一个问答推理机。这两个组件在操作时都明确考虑了不确定性,以减少过度自信预测的风险。
Scientist AI 可用于协助人类研究人员加速科学进步。特别地,Scientist AI 可以作为防范 AI 智能体的护栏,最终使我们能够在享受人工智能创新带来的好处的同时,避免当前发展路径所带来的风险。
Scientist AI 简介
受柏拉图式理想化科学家形象的启发,研究团队提出了 Scientist AI 的设计与构建方案。Scientist AI 基于 SOTA 概率深度学习技术,并借鉴科学过程的方法论,即首先理解或建模世界,然后基于这些知识进行概率推断。
图灵奖得主 Yoshua Bengio
Scientist AI 展示了如何将概率预测转化为实验设计,从而消除科学发现中对强化学习智能体的需求。与旨在追求目标的自主 AI 不同,Scientist AI 的训练目标是提供对事件的解释及其估计概率。研究团队还提出了确保 Scientist AI 保持非自主性的策略。
Scientist AI 没有内置的情境意识,也没有能够驱动行动或长期计划的持久目标。它包含一个世界模型和一个概率推理机。世界模型根据从世界中观察到的一组数据生成解释性理论,推理机则基于世界模型进行无状态输入到输出的概率估计。
更准确地说,世界模型根据观察数据输出解释性理论的后验分布,推理机随后将后验分布与高效的概率推理机制结合起来,估计任何问题 X 的答案 Y 的概率。形式上,推理机接收一对输入(X, Y),也称为查询,输出在给定与问题 X 相关的条件下 Y 的概率。
Scientist AI 具有以下特性:
1. 世界模型生成的理论和推理机处理的查询都使用逻辑语句表达,这些语句可以用自然语言或形式语言表示。世界模型采样的语句形成因果模型,即以因果关系的形式提供解释。
2. 根据世界模型,任何查询都有一个唯一的正确概率,这是通过全局优化 AI 的贝叶斯训练目标得到的结果。推理机的输出近似于这个唯一的正确概率。
3. Scientist AI 可以生成涉及潜在或未观察变量的解释,从而对其进行概率预测。
最后,研究团队还预见了 Scientist AI 的三大主要应用场景:
1. 作为一种工具,帮助人类科学家显著加速科学进步,包括医疗等高回报领域;
2. 作为一种防护机制,通过双重检查自主 AI 提议的行动并确保其安全部署,从而防范自主 AI 的风险;
3. 作为一种 AI 研究工具,帮助更安全地构建未来更智能(甚至超级智能)的 AI。
感兴趣的读者可以阅读论文原文,了解更多研究内容。