2023/07/07 19:06

蛋酱报道

一天之内，OpenAI有三件大事发生

自从 ChatGPT 发布以来，OpenAI 几乎成为了全球媒体头条新闻的常客。目前，这家公司的估值接近 300 亿美元，融资总规模达到 113 亿美元，即使在众多明星 AI 初创公司里也属于顶流。

一、德扑 AI 作者 Noam Brown 加入 OpenAI

伴随大语言模型的持续火爆，利用其构建 AI 智能体的研究陆续进入人们的视线。

游戏 AI 和大语言模型的强强联合，会带来新的突破吗？不久前，Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部会非常感兴趣并认真讨论。前两天，一位 OpenAI 内部员工撰写了一篇关于 AI 智能体的博客，也让人们对「大模型智能体」有了更加深刻的理解。

同时也看得出来，为了尽快推动这方面的研究进展，OpenAI 也在努力招揽人才，组建更强大的研究团队。

今天，德扑 AI 作者 Noam Brown 在推特上宣布，自己已经加入 OpenAI，将专注于通用的强化学习研究，目标是打造比 GPT-4 好 1000 倍的大语言模型。

「我很高兴地告诉大家，我已经加入了 OpenAI！多年来，我一直研究 AI 在扑克和 Diplomacy 等游戏中的自博弈和推理。现在我将研究如何使这些方法真正通用。如果成功的话，我们有一天可能会看到比 GPT-4 好 1000 倍的 LLM。」

此前，Noam Brown 致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统，其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的关注度。

2017 年，Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《Science》杂志，与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖。Noam 团队还因此获得了 IJCAI 颁发的第二枚马文・明斯基奖章（Marvin Minsky Medal）。

2019 年 7 月，在无限制德州扑克六人对决的比赛中，Noam Brown 和团队开发的德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 实现了前辈 Libratus（冷扑大师）未能完成的任务，再次等登上了《Science》杂志。

2020 年 9 月，Noam Brown 完成 CMU 博士论文答辩，并公开了长达 230 页的超硬核博士论文《大型对抗性不完美信息博弈的均衡发现》。在该论文中，Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家，而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。

获得博士学位之后，Noam Brown 加入当时的 Facebook 人工智能研究中心任研究科学家，致力于多智能体人工智能的研究。

关于加入 OpenAI 后的未来，Noam 有很多的设想：

2016 年，AlphaGo 击败了李世石，是人工智能的一个里程碑，其中的关键是 AI 在每一步棋之前都要「思考」1 分钟的能力。这对它的提升有多大影响呢？对于 AlphaGoZero 来说，这相当于将预训练扩大了约 100,000 倍。

同样在 2016 年，我在扑克中观察到了类似的现象。这一洞察最终使得 Libratus 扑克 AI 首次击败了顶级人类玩家。后来，Andy L. Jones 在 Hex 中详细调查了训练时间 / 测试时间的计算 tradeoff，也发现了类似的模式。

此前所有这些的方法都是针对游戏的，而如果我们能发现一个通用的版本，意义可能是巨大的。是的，可能推理会慢 1000 倍，可能成本更高。但如果是发现一种新的癌症药物，或者证明黎曼假设，我们会在意支付多少推理成本吗？

改进能力总是有风险的，如果这项研究成功了，它对安全研究也是有价值的。想象一下，能够在推理上花费 100 万美元，看看能力更强的未来模型可能是什么样子。

如果你对这个或类似的问题感兴趣，加入我们吧。早在 2012 年，我就从金融业过渡到了人工智能，这是我做出过的最好的决定。伴随整个 AI 领域的颠覆，现在是一个特别好的开始时间。

Noam 的设想获得了很多 AI 领域专家的赞同，英伟达高级 AI 科学家 Jim Fan 也在推特表达了自己对于游戏 AI 与 LLM 相结合的期许：

我相信下一代的 LLM 将大量借鉴十年以来游戏 AI 研究的成果。

一、Libratus 扑克 AI 的创造者 Noam Brown 加入 OpenAI ；
二、Demis Hassabis 表示，DeepMind Gemini 将从 AlphaGo 中汲取技术。

这些举动是很有意义的。像自博弈（训练）和树形搜索（推理）这样的方法已经帮助机器在围棋、扑克、Dota 和星际争霸等游戏中击败人类冠军，它们以一种高度可扩展的方式提高了模型的推理能力。

我们已经看到这种想法被添加到 LLM 的武器库中 ——Voyager 是一种推理时间算法，它使智能体能够不断地编写代码，并在 Minecraft 中引导其技能。思维树（Tree of Thought）将搜索与 LLM 的上下文能力相结合，以提高推理能力。相信之后还有更多的研究出现。

这条推文中提到的「Demis Hassabis 观点」源自 6 月底的一篇《连线》采访。当时，Google DeepMind 的联合创始人兼首席执行官 Demis Hassabis 表示，Gemini 将结合 AlphaGo 的技术与大语言模型的能力，赋予系统更强的规划或解决问题的能力，将比 OpenAI 的 GPT-4 更加强大。Gemini 的开发目前还在进行中，预计需要数月的时间，并可能耗资数千万甚至数亿美元。

期待 Noam Brown 加入 OpenAI 后，能在做出更加经验的成果。

二、GPT-4 API 全面开放

从今天开始，所有「具有成功支付历史」的现有 OpenAI API 开发人员都可以访问 8K 上下文的 GPT-4 API。此外，OpenAI 计划在本月底之前向新开发人员开放访问权限，然后「根据计算可用性」开始提高可用性限制。

「自 3 月份以来，数百万开发者请求访问 GPT-4 API，并且利用 GPT-4 的创新产品范围每天都在增长。」OpenAI 在博客文章中写道，「我们设想未来基于聊天的模型可以支持任何用例。」

GPT-4 可以生成文本（包括代码）并接受图像和文本输入，这是对其前身 GPT-3.5（只接受文本）的改进，且 GPT-4 已经在各种专业和学术基准上表现出了「人类水准」。但目前，图像理解功能尚未提供给所有 OpenAI 客户。

OpenAI 表示，未来将允许开发人员用自己的数据微调 GPT-4 和 GPT-3.5 Turbo（为 ChatGPT 提供支持的原始模型之一），该功能将于今年晚些时候推出。

在今天的相关公告中，OpenAI 还表示，它将全面提供 DALL-E 2 和 Whisper 的 API，DALL-E 2 是 OpenAI 的图像生成模型， Whisper 是 OpenAI 推出的语音到文本模型。

三、开放 Code Interpreter，ChatGPT 实现自然语言编程

最后一个消息同样重磅：不久之后，所有 ChatGPT Plus 用户都将可以使用 Code Interpreter。

ChatGPT 出现后，人们预测「所有行业都要通过 AI 进行重塑」，编程也不例外。低代码 / 无代码算是近年来的热门趋势，再加上生成式 AI 技术，使用自然语言编程想必不会太远了。

就连马斯克也说了，当前火热的「提示工程」，本质上就是自然语言编程。

今天，OpenAI 宣布，下周 Code Interpreter 将通过设置中的 beta 面板向所有 Web ChatGPT Plus 用户提供。Code Interpreter 是 OpenAI 推出的首批官方插件之一，可以用于数据分析、创建图表、编辑文件、执行数学运算等。

此前 Code Interpreter 一直处于封闭测试阶段，很多受邀用户也分享过自己的试用体验，具体可参考机器之心的报道《GIF 动画渲染、让灯塔闪烁、创建航空动态图……ChatGPT 代码解释器插件「不止于代码」》。

现在 OpenAI 宣布将其作为 ChatGPT Plus 用户的官方插件，标志着增强 AI 语言模型功能的重要一步。

如果想使用 Code Interpreter，ChatGPT Plus 用户可以访问设置，单击姓名，选择测试版功能，然后切换想要尝试的功能。

参考链接：

https://twitter.com/DrJimFan/status/1677000660791992320?s=20

https://techcrunch.com/2023/07/06/openai-makes-gpt-4-generally-available/

https://the-decoder.com/openai-launches-chatgtp-code-interpreter-for-better-coding-using-only-natural-language/

入门大事记OpenAI

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

博弈论技术

博弈论，又译为对策论，或者赛局理论，应用数学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

来源：维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

完美信息博弈技术

在经济学中，完全的信息是完美竞争的特征。随着市场信息的完善，所有消费者和生产者都被假定在对自由市场体系进行理论化和财务政策效应时，对产品的价格，效用，质量和生产方法有完整的认识。

来源：Wikipedia

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/