2024/05/16 15:01

18个月，OpenAI这支团队搞出了GPT-4o

奥特曼：如果没有他（Prafulla Dhariwal）的远见、才华、信念和决心，就不会有 GPT-4o。

「GPT-4o 的诞生离不开 @prafdhar 的远见、才华、信念和长期以来的坚定决心。正是这些努力（以及许多其他人的工作）促成了我希望会成为计算机使用方式革命的成果。」

在 OpenAI 发布新一代旗舰生成模型 GPT-4o 后的两天，OpenAI CEO 奥特曼对参与该项目的其中一位负责人评价道。

紧随其后，联合创始人 Greg Brockman 表示：「GPT-4o 是整个团队努力的结果。特别要感谢 @prafdhar，他坚信能够构建一个全能模型，并在过去 18 个月里通过与 OpenAI 的多个团队展开合作，从而实现了这一目标。」

看到这，估计大家都很好奇，prafdhar 到底是谁，他就是 Omni 团队负责人 Prafulla Dhariwal，也是 GPT-3、DALL-E 2 共同创造者。Dhariwal 表示「GPT-4o（o 代表 omni）是 Omni 团队推出的首个模型，也是 OpenAI 首个原生的全多模态模型。这次发布是整个组织共同努力的结果」。同时，Dhariwal 提到他想特别感谢团队中一些出色的成员，正是他们让这个神奇的模型成为可能！

Dhariwal 口中出色的团队成员到底有谁，整个团队贡献者都有哪些，接下来我们将为大家一一揭晓。

Prafulla Dhariwal

Prafulla Dhariwal 是 OpenAI 的一名研究科学家（也是前文奥特曼特别感谢的人），研究方向主要是生成式模型和无监督学习。他在 2017 年加入 OpenAI，至今已有 7 年多的时间。

Prafulla Dhariwal 本科毕业于麻省理工学院。在 MIT，Prafulla Dhariwal 主要学习计算机科学、数学、物理学，并在 MIT 大脑、思维和机器中心担任本科生研究员。

根据 Google Scholar 显示，Dhariwal 论文引用次数达到 72200 多次，参与的研究包括 DALL-E 2、DALL-E 3、Glow、Consistency Models 等，都是大家比较熟悉的。

James Betker

James Betker 是 OpenAI 的研究工程师，主要研究图像和音频的生成式建模。

在加入 OpenAI 之前，James Betker 在 GARMIN 国际航电瑞士有限公司担任了 12 年的软件工程师，并曾在谷歌担任软件工程师。

Rowan Zellers

Rowan Zellers 是 OpenAI 的研究员，致力于构建通过语言、视觉和声音理解人类和世界的机器。

Prafulla Dhariwal 表示：「Rowan Zellers 的研究工作让 GPT-4o 能够像人类一样自然地观看视频。」Rowan Zellers 也是 GPT-4 研究团队成员之一。

Alexis Conneau

Alexis Conneau 现在为 OpenAI 音频 AGI 研究负责人。Dhariwal 表示 Conneau 比 OpenAI 的任何人都更早地提出了 HER 的愿景，并坚持不懈地执行！

Gabriel Goh

Gabriel Goh 为 OpenAI 机器学习研究员，他对可解释性、机器学习、数据可视化和凸优化感兴趣。曾经参与了 DALL・E 1、DALL・E 3、GPT-4 等的研究。

Ishaan Gulrajani

Ishaan Gulrajani 现在为 OpenAI 机器学习研究者，此前他博士毕业于斯坦福大学，曾经参与过 Alpaca、Stanford alpaca 等的研究。

Alex Nichol

Alex Nichol 在 OpenAI 从事深度学习研究，DALL-E 2 共同创造者，擅长代码、人工智能和 3D 打印。

Li JING

Li JING 是 OpenAI 的研究员，在 GPT-4o 工作中主要进行图像 / 3D 生成方面的研究。

Li JING 也是 DALL・E 3 和 Sora 的研究团队成员。Li JING 的研究工作致力于帮助人工智能理解现实世界并创造新的智能。

Casey Chu

Casey Chu 是 OpenAI 的一名研究员，研究多模态人工智能系统，参与过 GPT-4、DALL・E 2 的研究。此前，他博士毕业于斯坦福大学。

Mark Chen

^{中间一位是 Mark Chen}

Mark Chen 为 OpenAI 前沿研究主管，5 月 14 日凌晨发布会现场就有他的身影，Mark Chen 曾参与过 DALL・E、GPT-4 等的研究。

Jiahui Yu

Jiahui Yu 在 OpenAI 领导感知团队，此前，他在伊利诺伊大学厄巴纳 - 香槟分校获得博士学位。在加入 OpenAI 之前，Jiahui Yu 在谷歌参与的研究包括 Gemini、PaLM 2 等。

Huiwen Chang

Huiwen Chang 于 2023 年加入 OpenAI，此前她在谷歌担任高级研究科学家，本科毕业于清华大学。

A. Jabri

A. Jabri 为 OpenAI 的技术人员，主要研究领域是用于自监督和无监督学习的可扩展目标和架构。此前曾在谷歌 DeepMind 实习。

Christine McLeavey

Christine McLeavey 是 OpenAI 的技术团队成员，主要进行多模态研究工作。她的研究兴趣主要在于音乐生成，她也是 OpenAI 音乐模型 MuseNet 研究团队成员。

Yu Zhang

Yu Zhang 是 OpenAI 技术团队成员，曾在 Google DeepMind 担任了 6 年的研究科学家。

Yu Zhang 本科毕业于上海交通大学计算机科学系，博士毕业于 MIT 计算机科学系。

除了上面提到的这些研究者，OpenAI 官方也放出了完整名单：

完整名单地址：https://openai.com/gpt-4o-contributions/

其中，语言方面的核心贡献者包括：

多模态核心贡献者包括：

感兴趣的读者，可以查看完整名单了解更多信息。

产业OpenAIGPT-4o

相关技术

知识图谱

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

凸优化技术

凸优化，或叫做凸最优化，凸最小化，是数学最优化的一个子领域，研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单，譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用，如次导数等。凸优化应用于很多学科领域，诸如自动控制系统，信号处理，通讯和网络，电子电路设计，数据分析和建模，统计学（最优化设计），以及金融。在近来运算能力提高和最优化理论发展的背景下，一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化（凸最小化）问题，例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息，数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码，以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化，例如进行比较或理解因果关系，并且图形的设计原则(即，显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方，而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。