2023/07/06 21:57

四年、投入20%计算资源，OpenAI成立专门团队构建解决对齐问题的超强AI

OpenAI：人类管不了未来的 AI，我们要构建一个监督模型对齐的新 AI。

随着 ChatGPT、GPT-4、LLaMA 等生成式大模型的爆火，生成式 AI 技术成为一个值得关注和思考的重要话题。一方面，生成式 AI 能够大幅提升生产效率；另一方面，人们也看到了生成式 AI 技术背后隐藏的风险。

今年上半年，机器学习领域的专家、学者已经多次联合发表公开信，呼吁人们重视生成式 AI 的潜在风险，并限制构建生成式 AI 大模型。其中，图灵奖得主 Geoffrey Hinton 更是在 4 月从谷歌离职，警告人们生成式 AI 将「对人类构成威胁」。

OpenAI 作为 ChatGPT、GPT-4 等大模型背后的公司，无疑被推上了风口浪尖。

现在，OpenAI 开始自救，正式宣布成立一个新的研究团队 ——Superalignment 团队，由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。值得注意的是，这个团队的主要任务是构建一个与人类水平相当的、负责模型对齐的「AI 研究员」。也就是说，OpenAI 要用 AI 来监督 AI。

OpenAI CEO Sam Altman 和 OpenAI 联合创始人 Ilya Sutskever。

四年投入 20% 算力

OpenAI 认为，人工智能技术正在飞速发展，影响全人类的超级智能（Superintelligence）看似遥远，但极有可能在十年内到来。

超级智能将是一把双刃剑，它可以帮助人类解决世界上许多重要问题，但它也可能导致人类丧失权力，威胁人类安全。

治理这些风险需要建立新的治理机构，并解决 AI 模型的对齐问题。一个显著的问题是：超级智能可能比人类更聪明，如何能让如此强大的 AI 系统遵循人类的意愿？

当前，将模型输出和人类偏好进行对齐最先进的方案是 RLHF，即以强化学习的方式依据人类反馈优化语言模型，本质上讲这种方法仍然依赖于人类监督 AI 的能力，将不适用于超级智能。

因此，OpenAI 宣布投入 20% 的计算资源，花费 4 年的时间全力打造一个解决超级智能对齐问题的超级对齐（Superalignment）系统。

为了构建超级对齐系统，开发团队需要做的工作如下：

1）开发一个可扩展的训练方法：

利用人工智能系统来协助评估其他人工智能系统，并将 AI 模型的监督能力泛化到人类无法监督的任务上。

2）验证系统：

为了验证系统的一致性，开发过程中会自动搜索有问题的行为（稳健性）和有问题的内部结构（可解释性）。

3）对整个对齐管道进行压力测试：

最后，使用未对齐的模型来测试整个流程，确保所提方法可以检测到最严重的未对齐类型（对抗性测试）。

团队信息

前文介绍过，Superalignment 团队由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。从 OpenAI 今天推特公布的信息来看目前也已有多位成员。

Ilya Sutskever 大名想必大家都已经听过。

Sutskever 在多伦多大学获得了计算机科学学士、硕士和博士学位，导师是 Geoffrey Hinton。博士毕业后进入斯坦福大学，成为吴恩达的博士后。后担任 DNNresearch 的联合创始人。2013 年，Ilya Sutskever 与 Hinton 一起加入谷歌大脑团队。他后来离开谷歌加入 OpenAI，成为了联合创始人和首席科学家。

团队另一负责人 Jan Leike，2016 年博士毕业，后加入谷歌做人类反馈强化学习（RLHF）相关研究，2021 年加入 OpenAI 做对齐研究。

去年，Jan Leike 曾在 OpenAI 发博客介绍他们进行对齐研究的相关方法，感兴趣的读者可以详细了解下。

链接：https://openai.com/blog/our-approach-to-alignment-research

OpenAI 这种用 AI 来监督 AI 的方法将是一种新的尝试，我们很难预判这种方法的实际效果，有人发出疑问：「谁来管理这个『AI 监督员』呢？」

但毫无疑问的是，面对超级强大的人工智能模型，我们的确需要新的对齐方法来保证 AI 模型的可控性。OpenAI 的方案如何，我们拭目以待。

参考链接：https://openai.com/blog/introducing-superalignment#JanLeike

产业OpenAI

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科