2024/09/22 13:27

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。

展示 o1 实力的 demo，我们看了不少，评估 o1 表现的评测，全网比比皆是，关于 o1 技术路线的讨论也如火如荼，引发了广泛的关注和深入的思考。

不过 o1 背后的故事，还鲜为人知，那些在幕后默默付出的团队成员们，他们的故事同样值得被讲述和铭记。

刚刚，OpenAI 发布了 o1 研发团队的完整访谈，为我们揭秘了 o1 的「成长历程」。o1 如何一步步蜕变，最终成为一个「智商高达 120」的非凡存在？他们是将强化学习和监督学习两种范式结合起来的？这背后是无数的突破与挑战，OpenAI o1 的研究人员与 OpenAI 研究团队的负责人 Bob McGrew 畅谈了研发过程中的「Aha moments」—— 那些破解瓶颈、灵感迸发、豁然开朗的瞬间。

在访谈中，他们揭秘了 o1 团队的关键人物，最早由 Jakub Pachocki 进行了一些探索，后来又和Łukasz Kaiser (Transformer 作者之一）和 Ilya Sutskever 进行了早期的探索。这可能也是为什么虽然 Ilya 已经离职，但仍出现在贡献者名单前列的理由。

o1 项目的关键时刻是 Jerry Tworek 整合了这些内容，并继续推动项目。

原视频链接：https://www.youtube.com/watch?v=tEzs3VHyBDM

以下是对访谈主要内容摘录：

什么是 o1？

Hyung Won Chung：我们将使用新名称 o1 推出一系列新模型。这是为了强调这样一个事实：与 GPT-4 等以前的模型相比，您在使用 o1 时可能会感到不同。o1 是个推理模型，它在回答你的问题之前会做更多思考。我们将发布两个模型：o1 preview，也就是 o1 的内容预览版，还有采用了与 o1 相似的训练框架、更小更快的 o1 mini。希望你喜欢我们的新命名方案 o1。

Hyung Won Chung

什么是推理？

Giambattista Parascandolo：可以这么理解：对于一些需要立即回答的简单问题，例如，「意大利的首都是哪里？」，不用想太多，就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说，那可能需要很多思考。想得越多，可能成果越好。因此，可以说推理是一种把思考时间转化为更好成果的能力。

Giambattista Parascandolo

你们研究 o1 多久了？

Jakub Pachocki：在 OpenAI 的初创时期，我们深受 AlphaGo 的启发，意识到了深度强化学习的巨大潜力。因此，我们在这方面投入了大量研究，在数据和机器人技术方面取得了很好的扩展效果。我们一直在思考如何在通用领域中应用强化学习，以创造出强大的人工智能。GPT 的成功，让我们见证了扩展和监督学习的范式所带来的惊人结果。从那时起，我们就一直在思考如何将这两种不同的范式结合起来。

o1 项目的初创成员：Jakub Pachocki

Mark Chen：很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索，后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容，并由 Jerry 来推动项目。

o1 项目的初创成员：Łukasz Kaiser

o1 项目的关键人物：Jerry Tworek

Mark Chen

你们有没有过「Aha Moment」？

Jerry Tworek：我们训练了 GPT-2、GPT-3、GPT-4，模型刚出炉时，我们开始与模型对话，人们都说：「哇，这个模型真的很棒。」在训练过程中，有一个特定的时刻，我们投入了更多的计算资源，并训练模型生成连贯的思维链。然后我们看到：「哇，这看起来和以前真的有显著的不同。」对我来说，那就是「Aha Moment」。

Trapit Bansal：与此相关的另一个发现是。当我们开始考虑要训练一个推理模型时，我最先想到的方法就是，可以让人类写下他们的思维过程，然后以此进行训练。我的「Aha Moment」是当我们发现，通过使用强化学习来训练模型生成和打磨它自己的思维链，效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法，并且专家模型也可以通过这种方式进行推理。

Hunter Lightman：我们一直在尝试提升模型的数学能力。我们为此付出了很多努力，也曾尝试过很多不同方法。但有一件事让我一直很在意，每次我阅读模型的输出时，我总是感到非常沮丧。模型似乎从不质疑自己哪里出了错，尤其是在犯错的时候。

但是，当在训练 o1 模型的早期，我们开始与它进行对话，并向它提出这些问题，它在数学测试中的得分变高了。我们可以观察到它是如何推理的，你可以清楚地看到它开始质疑自己，并进行有趣的反思。对我来说，那一刻我心想，「我们做出了全新的发现，这是一切都融会贯通起来了的时刻。」

当你阅读这些思维过程时，感觉像是在看一个人类的思考，还是像在看一个机器人？

Liam Fedus：这更像是一种精神体验。你可以与模型共鸣，可以看到它犯了很多人类常犯的错误，你还能看到它在质疑一些世俗常规。但在行为上，模型却表现得出奇地像人类。

Wojciech Zaremba：还有一点很酷：当我们给模型设置思考时间的 ddl 时，它往往会在快到时间截止点时迅速得出结论，它仿佛意识到了：「哎呀，我必须现在完成了！」

你们遇到了哪些障碍？

Jerry Tworek：从本质上讲，训练大型模型是非常困难的事情，有成千上万的事情可能出错，实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型，并想办法让它们继续学习和改进。通向成功的道路非常狭窄，而失败的可能性却很多。

Ilge Akkaya：这个模型非常优秀，很多时候甚至表现得比人类还要好，就像拥有好几个博士学位的水平。但这有时也是一种挑战，因为我们经常需要验证模型是否没有偏离轨道，或者是否在做一些不合理的事情。随着模型规模的扩大，这开始变得非常耗时；我们已经用尽了所有行业级资源，但我们不知道接下来应该找什么，所以这也是一个挑战。

你们用什么方法来测试模型？

Shengjia Zhao：让 o1 数 Strawberry 里有多少 r。

Hunter Lightman：我们经常去推特上搜谁发了个帖子：「大语言模型不能做...」，我们就复制粘贴过来，输入我们的模型进行测试，验证它是否能做到内部人士如何使用 o1？

Hyung Won Chung：我使用 o1 来编程，毕竟我的工作大部分就是编程。所以我现在更多地专注于问题的定义，并采用 TDD（测试驱动开发）方法，与其编写直接能实现功能的代码，我更倾向编写一个单元测试，明确程序应该如何运行才能算正确，然后交给 o1 来完成。这样我可以把精力放在更重要、更高层次的问题上。

另一个方面是调试。当我遇到 bug 时，我现在会直接交给 o1，它会输出一些提示。有时它能够立即解决问题，即使没能解决，它至少能引导我提出更好的问题，提供更有价值的思路。

Jerry Tworek：我越来越多地用 o1 来学习，向它询问各种复杂的技术问题时，它产生的幻觉更少，并且比以前的模型解释得更好。

Jason Wei：对我来说，我喜欢把 o1 当作一个头脑风暴的伙伴，从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如，我最近写了一篇关于语言模型评估的博客，我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点，甚至包括写作风格的建议。因为它在给出最终答案之前会思考，更好地更好地连接起思路，它还可以修改和评估备选的方案。

Jason Wei

Liam Fedus：当你只有一些散乱的思路时，它可以帮你将这些想法串联起来，找出遗漏的部分。通过它的最终答案和它的思维过程，它真的能够为你带来更好的结果。

Hongyu Ren：是的，我用它来尝试我们内部的一些「秘密想法」，并努力改进。

Hongyu Ren

这个项目中有没有哪些部分是必须的，但人们可能没有意识到它有多重要？

Łukasz Kondraciuk：我认为，建立实验室规模的可靠基础设施，用来运行我们最大、最重要的模型训练平台以及进行研究实验，虽然不像研究本身那么令人兴奋，但却至关重要，对整个项目的成功产生了巨大影响。”

Łukasz Kondraciuk

Jerry Tworek：我觉得 OpenAI 在如何构建其研究方面有一些特别之处，我们同样重视算法进步和建立可靠的大规模系统，以及创建用于训练这些模型的数据集。我为 OpenAI 这一点感到非常自豪。

Jakub Pachocki：每次我们将某件事扩大一个数量级时，都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。

O1 Mini 是如何诞生的？

Hongyu Ren：我们的动机是希望将 o1 系列带给更多的用户，并降低成本。因此，我们创建了 o1 Mini，它的设计目的是展示整个 o1 管道或框架的简化版本。我们让它成为一个推理专家，它可能不一定知道你最喜欢的名人的生日，但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多，并且几乎与我们最好的模型 o1 持平。

它确实有一些限制，比如可能不知道很多外界的信息，尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型（如 GPT-4o mini）相当。我们正在进一步改进它，我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。

完整访谈视频内容，请查看原视频。

理论OpenAI o1OpenAI