自从 ChatGPT 发布以来,OpenAI 几乎成为了全球媒体头条新闻的常客。目前,这家公司的估值接近 300 亿美元,融资总规模达到 113 亿美元,即使在众多明星 AI 初创公司里也属于顶流。
一、德扑 AI 作者 Noam Brown 加入 OpenAI伴随大语言模型的持续火爆,利用其构建 AI 智能体的研究陆续进入人们的视线。游戏 AI 和大语言模型的强强联合,会带来新的突破吗?不久前,Andrej Karpathy 在一次开发者活动上透露,每当有新的 AI 智能体论文出现时,OpenAI 内部会非常感兴趣并认真讨论。前两天,一位 OpenAI 内部员工撰写了一篇关于 AI 智能体的博客,也让人们对「大模型智能体」有了更加深刻的理解。同时也看得出来,为了尽快推动这方面的研究进展,OpenAI 也在努力招揽人才,组建更强大的研究团队。今天,德扑 AI 作者 Noam Brown 在推特上宣布,自己已经加入 OpenAI,将专注于通用的强化学习研究,目标是打造比 GPT-4 好 1000 倍的大语言模型。「我很高兴地告诉大家,我已经加入了 OpenAI!多年来,我一直研究 AI 在扑克和 Diplomacy 等游戏中的自博弈和推理。现在我将研究如何使这些方法真正通用。如果成功的话,我们有一天可能会看到比 GPT-4 好 1000 倍的 LLM。」此前,Noam Brown 致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统,其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的关注度。2017 年,Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《Science》杂志,与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖。Noam 团队还因此获得了 IJCAI 颁发的第二枚马文・明斯基奖章 (Marvin Minsky Medal)。2019 年 7 月,在无限制德州扑克六人对决的比赛中,Noam Brown 和团队开发的德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 实现了前辈 Libratus(冷扑大师)未能完成的任务,再次等登上了《Science》杂志。2020 年 9 月,Noam Brown 完成 CMU 博士论文答辩 ,并公开了长达 230 页的超硬核博士论文《大型对抗性不完美信息博弈的均衡发现》。在该论文中,Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家,而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。获得博士学位之后,Noam Brown 加入当时的 Facebook 人工智能研究中心任研究科学家,致力于多智能体人工智能的研究。关于加入 OpenAI 后的未来,Noam 有很多的设想:2016 年,AlphaGo 击败了李世石,是人工智能的一个里程碑,其中的关键是 AI 在每一步棋之前都要「思考」1 分钟的能力。这对它的提升有多大影响呢?对于 AlphaGoZero 来说,这相当于将预训练扩大了约 100,000 倍。同样在 2016 年,我在扑克中观察到了类似的现象。这一洞察最终使得 Libratus 扑克 AI 首次击败了顶级人类玩家。后来,Andy L. Jones 在 Hex 中详细调查了训练时间 / 测试时间的计算 tradeoff,也发现了类似的模式。
此前所有这些的方法都是针对游戏的,而如果我们能发现一个通用的版本,意义可能是巨大的。是的,可能推理会慢 1000 倍,可能成本更高。但如果是发现一种新的癌症药物,或者证明黎曼假设,我们会在意支付多少推理成本吗?改进能力总是有风险的,如果这项研究成功了,它对安全研究也是有价值的。想象一下,能够在推理上花费 100 万美元,看看能力更强的未来模型可能是什么样子。如果你对这个或类似的问题感兴趣,加入我们吧。早在 2012 年,我就从金融业过渡到了人工智能,这是我做出过的最好的决定。伴随整个 AI 领域的颠覆,现在是一个特别好的开始时间。
Noam 的设想获得了很多 AI 领域专家的赞同,英伟达高级 AI 科学家 Jim Fan 也在推特表达了自己对于游戏 AI 与 LLM 相结合的期许:
我相信下一代的 LLM 将大量借鉴十年以来游戏 AI 研究的成果。一、Libratus 扑克 AI 的创造者 Noam Brown 加入 OpenAI ;二、Demis Hassabis 表示,DeepMind Gemini 将从 AlphaGo 中汲取技术。这些举动是很有意义的。像自博弈(训练)和树形搜索(推理)这样的方法已经帮助机器在围棋、扑克、Dota 和星际争霸等游戏中击败人类冠军,它们以一种高度可扩展的方式提高了模型的推理能力。
我们已经看到这种想法被添加到 LLM 的武器库中 ——Voyager 是一种推理时间算法,它使智能体能够不断地编写代码,并在 Minecraft 中引导其技能。思维树(Tree of Thought)将搜索与 LLM 的上下文能力相结合,以提高推理能力。相信之后还有更多的研究出现。
这条推文中提到的「Demis Hassabis 观点」源自 6 月底的一篇《连线》采访。当时,Google DeepMind 的联合创始人兼首席执行官 Demis Hassabis 表示,Gemini 将结合 AlphaGo 的技术与大语言模型的能力,赋予系统更强的规划或解决问题的能力,将比 OpenAI 的 GPT-4 更加强大。Gemini 的开发目前还在进行中,预计需要数月的时间,并可能耗资数千万甚至数亿美元。
期待 Noam Brown 加入 OpenAI 后,能在做出更加经验的成果。从今天开始,所有「具有成功支付历史」的现有 OpenAI API 开发人员都可以访问 8K 上下文的 GPT-4 API。此外,OpenAI 计划在本月底之前向新开发人员开放访问权限,然后「根据计算可用性」开始提高可用性限制。「自 3 月份以来,数百万开发者请求访问 GPT-4 API,并且利用 GPT-4 的创新产品范围每天都在增长。」OpenAI 在博客文章中写道,「我们设想未来基于聊天的模型可以支持任何用例。」GPT-4 可以生成文本(包括代码)并接受图像和文本输入,这是对其前身 GPT-3.5(只接受文本)的改进,且 GPT-4 已经在各种专业和学术基准上表现出了「人类水准」。但目前,图像理解功能尚未提供给所有 OpenAI 客户。OpenAI 表示,未来将允许开发人员用自己的数据微调 GPT-4 和 GPT-3.5 Turbo(为 ChatGPT 提供支持的原始模型之一),该功能将于今年晚些时候推出。在今天的相关公告中,OpenAI 还表示,它将全面提供 DALL-E 2 和 Whisper 的 API,DALL-E 2 是 OpenAI 的图像生成模型, Whisper 是 OpenAI 推出的语音到文本模型。三、开放 Code Interpreter,ChatGPT 实现自然语言编程最后一个消息同样重磅:不久之后,所有 ChatGPT Plus 用户都将可以使用 Code Interpreter。ChatGPT 出现后,人们预测「所有行业都要通过 AI 进行重塑」,编程也不例外。低代码 / 无代码算是近年来的热门趋势,再加上生成式 AI 技术,使用自然语言编程想必不会太远了。就连马斯克也说了,当前火热的「提示工程」,本质上就是自然语言编程。今天,OpenAI 宣布,下周 Code Interpreter 将通过设置中的 beta 面板向所有 Web ChatGPT Plus 用户提供。Code Interpreter 是 OpenAI 推出的首批官方插件之一,可以用于数据分析、创建图表、编辑文件、执行数学运算等。现在 OpenAI 宣布将其作为 ChatGPT Plus 用户的官方插件,标志着增强 AI 语言模型功能的重要一步。如果想使用 Code Interpreter,ChatGPT Plus 用户可以访问设置,单击姓名,选择测试版功能,然后切换想要尝试的功能。https://twitter.com/DrJimFan/status/1677000660791992320?s=20https://techcrunch.com/2023/07/06/openai-makes-gpt-4-generally-available/https://the-decoder.com/openai-launches-chatgtp-code-interpreter-for-better-coding-using-only-natural-language/