Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陶哲轩支持!AI数学奥林匹克竞赛进步奖公布,奖金100多万美元

大模型做数学题到底如何,不妨让它参与一下这种级别的比赛。


 「AI 数学奥林匹克竞赛(AIMO 进步奖)的初步成绩已公布。根据排行榜的数据,目前看来,获胜的程序在私人测试中正确回答了 29/50 道题,这一成绩比预期的要高。」刚刚,陶哲轩在个人博客中公布了这一消息。
图片
AIMO 最初由一家搞机器学习量化交易的非银行金融机构 XTX Markets 发起,主要是让参与者使用 AI 模型解决国际数学难题,而本次进步奖的目标是创建能够解决用 LaTeX 格式编写的复杂数学问题的算法和模型。这将有助于推动人工智能模型的数学推理能力,并推动前沿知识的发展。 

值得一提的是,此次进步奖是首次颁发,获奖队伍将角逐 104.8 万美元的奖金。

参赛题目包括中级高中数学竞赛的题目,但难度没有达到国际数学奥林匹克(IMO)的水平。

 获奖资格要求团队公开发布其代码、方法、数据和模型参数。 

根据排名,我们可以看出,获得第一名的是 Numina 的团队,CMU_MATH 位列第二,after exams 暂居第三,codeinter、Conor #2 团队分别拿到第四、第五的成绩。

根据规则,参赛小组最多 5 人,排名前五的就有两位是单人作战。
图片
大家使用的模型也是各不相同,包括 Mixtral・8x7b、Gemma、Llama 3 等。
图片
一直以来,IMO 国际奥林匹克数学竞赛都是由专门研究数学的爱好者们直接参与,但随着大模型能力的不断提升,其在数学中的表现受到越来越多的关注。

大家测试的重点也逐渐从类似的高考题转战到奥林匹克竞技场上,此前,来自 Google DeepMind 的 AlphaGeometry 登上 Nature,该研究解决了 30 个奥林匹克级别问题中的 25 个,接近国际数学奥林匹克竞赛金牌选手的平均表现。

在大模型爆发的当下,已经不止一家开始挑战奥赛难题,让他们之间一较高下结果会怎样呢?

去年 11 月,专门为 AI 设立的数学比赛来了,奖金为 1000 万美元,旨在激励开放式的人工智能模型开发,使其能够在国际数学奥林匹克(IMO)中表现得与顶尖人类参赛者一样出色。此次进步奖是作为 AIMO 大奖的一部分进行评选。
图片
AIMO 顾问委员都是数学界的大牛,包括菲尔兹奖得主 Timothy Gowers 和陶哲轩(Terence Tao),与他们一同任职的还有 Po-Shen Loh、Dan Roberts 和 Geoff Smith。
图片
参考链接:
https://aimoprize.com/participate
产业陶哲轩AIMO 进步奖
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~