Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

对于 AI 来说,奥数不再是问题了。


本周四,谷歌 DeepMind人工智能完成了一项壮举:用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题,并且距拿金牌仅一步之遥。


图片


上周刚刚结束的 IMO 竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合 AI 系统做对了四道,获得 28 分,达到了银牌水平。


本月初,UCLA 终身教授陶哲轩刚刚宣传了百万美元奖金的 AI 数学奥林匹克竞赛(AIMO 进步奖),没想到 7 月还没过,AI 的做题水平就进步到了这种水平。


IMO 上同步做题,做对了最难题


IMO 是历史最悠久、规模最大、最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。近来,IMO 竞赛也被广泛认为是机器学习领域的一项重大挑战,成为衡量人工智能系统高级数学推理能力的理想基准


在今年的 IMO 竞赛上,由 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 共同实现了里程碑式的突破。


其中,AlphaProof 是一种用于形式化数学推理的强化学习系统,而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。


这一突破表明具有先进数学推理能力的通用人工智能 (AGI) 有潜力开启科学技术新领域。


那么,DeepMind 的 AI 系统是如何参加 IMO 竞赛的?


简单来说,首先这些数学问题被手动翻译成形式化的数学语言,以便 AI 系统理解。在正式比赛中,人类参赛选手分两节(两天)提交答案,每节限时 4.5 小时。AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就解决了一个问题,但花了三天时间来解决其他问题。虽然如果严格按照规则来说的话,DeepMind 的系统超时了。有人推测,这里面可能涉及大量的暴力破解。


图片


谷歌表示,AlphaProof 通过确定答案并证明其正确性解决了两道代数问题和一道数论问题。其中包括本次竞赛中最难的问题,在今年的 IMO 上只有五名参赛者解决了。而 AlphaGeometry 2 证明了一道几何问题。


AI 给出的解:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/index.html


IMO 金牌得主、菲尔兹奖得主 Timothy Gowers 和两届 IMO 金牌得主、IMO 2024 问题选择委员会主席 Joseph Myers 博士根据 IMO 评分规则,对该组合系统给出的解决方案进行了评分。


六个问题中的每一个问题满分 7 分,总分最高 42 分。DeepMind 的系统最终得分为 28 分,意味着解决的 4 个问题都获得了满分——相当于银牌类别的最高分。今年的金牌门槛为 29 分,正式比赛的 609 名选手中有 58 人获得了金牌。


图片

该图显示了谷歌 DeepMind人工智能系统在 IMO 2024 上相对于人类竞争对手的表现。在总分为 42 分的情况下,该系统获得了 28 分,达到了与比赛银牌获得者相同的水平。另外,今年 29 分是能拿金牌的。


AlphaProof:一种形式化推理方法


在谷歌使用的混合 AI 系统中,AlphaProof 是一个以形式语言 Lean 来证明数学陈述的自训练系统。它结合了预训练语言模型AlphaZero 强化学习算法。


其中,形式语言为形式化地验证数学推理证明的正确性,提供了重要优势。在此之前,这在机器学习中的使用一直受限,因为人工编写数据数量非常有限。

相比之下,基于自然语言的方法尽管可以访问更多量级的数据,但会产生看似合理而不正确的中间推理步骤与解法。

谷歌 DeepMind 通过微调 Gemini 模型自动将自然语言问题陈述翻译为形式陈述,在这两个互补领域之间建立了一座桥梁,从而创建了一个包含不同难度形式问题的大型库。

给到数学问题,AlphaProof 会生成候选解题方案,然后通过搜索 Lean 中可能的证明步骤来证明它们。找到并验证的每个证明方案,都用来强化 AlphaProof 的语言模型,增强其解决后续更具挑战性问题的能力。

为训练 AlphaProof,谷歌 DeepMind 在 IMO 比赛前几周内证明或反证明了涵盖广泛难度与主题的数百万个数学问题。比赛期间还应用了训练 loop,以强化自生成竞赛题变体的证明,直到找到完整的解决方案。

图片AlphaProof 强化学习训练 loop 过程信息图:约一百万个非形式化数学问题被形式化网络翻译成形式化数学语言。然后,求解器网络搜索问题的证明或反证,通过 AlphaZero 算法逐步训练自己解决更具挑战性的问题。

更具竞争力的 AlphaGeometry 2

AlphaGeometry 2 是今年登上《自然》杂志的数学 AI AlphaGeometry 的重大改进版本。它是一个神经 - 符号混合系统,其中的语言模型基于 Gemini,并在比其前身多一个数量级的合成数据上从头开始训练。这有助于该模型解决更具挑战性的几何问题,包括有关物体运动以及角度、比例或距离方程的问题。

AlphaGeometry 2 采用的符号引擎比上一代产品快两个数量级。当遇到新问题时,新颖的知识共享机制可实现不同搜索树的高级组合,以解决更复杂的问题。

在今年的比赛之前,AlphaGeometry 2 可以解决过去 25 年中所有 IMO 几何历史问题的 83%,而其前身的解决率仅为 53%。在 IMO 2024 中,AlphaGeometry 2 在收到问题 4 的形式化后 19 秒内就解决了它。

图片

问题 4 的示例,要求证明∠KIL 与∠XPY 的和等于 180°。AlphaGeometry 2 提议在直线 BI 上构造点 E,使得∠AEB = 90°。点 E 有助于赋予线段 AB 中点 L 以意义,从而创建许多对相似三角形,如 ABE ~ YBI 和 ALE ~ IPC,以证明结论。

谷歌 DeepMind 还报告说,作为 IMO 工作的一部分,研究人员还试验了一种基于 Gemini 和一种最新的自然语言推理系统,希望实现高级的问题解决能力。该系统不需要将问题翻译成正式语言,并且可以与其他 AI 系统相结合。在今年的 IMO 赛题的测试中「显示出了巨大的潜力」。

谷歌正在继续探索推进数学推理的 AI 方法,并计划很快发布有关 AlphaProof 的更多技术细节。

我们对未来充满期待,数学家们将使用 AI 工具探索假设,尝试大胆的新方法来解决长期存在的问题,并快速完成耗时的证明元素——而像 Gemini 这样的 AI 系统将在数学和更广泛的推理方面变得更加强大。

研究团队

谷歌表示,新研究得到了国际数学奥林匹克组织的支持,此外:

AlphaProof 的开发由 Thomas Hubert、Rishi Mehta 和 Laurent Sartran 领导;主要贡献者包括 Hussain Masoom、Aja Huang、Miklós Z. Horváth、Tom Zahavy、Vivek Veeriah、Eric Wieser、Jessica Yung、Lei Yu、Yannick Schroecker、Julian Schrittwieser、Ottavia Bertolli、Borja Ibarz、Edward Lockhart、Edward Hughes、Mark Rowland 和 Grace Margand。

图片

其中,Aja Huang、Julian Schrittwieser、Yannick Schroecker 等成员也是 8 年前(2016 年)AlphaGo 论文的核心成员。8 年前,他们基于强化学习打造的 AlphaGo 声名大噪。8 年后,强化学习在 AlphaProof 中再次大放异彩。有人在朋友圈感叹说:RL is so back!

图片

AlphaGeometry 2 和自然语言推理工作由 Thang Luong 领导。AlphaGeometry 2 的开发由 Trieu Trinh 和 Yuri Chervonyi 领导,Mirek Olšák、Xiaomeng Yang、Hoang Nguyen、Junehyuk Jung、Dawsen Hwang 和 Marcelo Menegali 做出了重要贡献。

图片

此外,David Silver、Quoc Le、哈萨比斯和 Pushmeet Kohli 负责协调和管理整个项目。

参考内容:

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

理论
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

推荐文章
暂无评论
暂无评论~