AI好好用报道
省流版结论:有进步,但联系实际的题目还是歇菜。
生活会欺骗你,但数学不会,数学不会就是不会。
这个段子,在大模型身上同样成立。
9.9 和 9.11 哪个大、strawberry 有几个 r,如此简单的题目曾难倒一群大模型。
本着哪里薄弱补哪里的原则,大模型们近来「卷」起了数学推理。
先是 Kimi 网页端上线了首个数学模型 k0-math ,直接对标 OpenAI 的 o1-mini 和 o1-preview。
据 Kimi 官方介绍,在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。
没隔几天,昆仑万维和阿里均推出了自家 o1 模型。
其中,昆仑万维表示其 Skywork o1 系列模型,在各项数学指标上实现显著提升。
而阿里声称最新的 QwQ-32B-preview 在 GPQA 上击败了 o1-mini。
半个月前,夸克发布 AI 搜题功能,其背后的「灵知」学习大模型,号称在考研数学题上的正确率和得分率可以比肩 o1 模型。
还有一直跟数学「死磕」的学而思,推出的九章大模型一度成为家长辅导孩子的「利器」。
接下来,我们就测评一下这些大模型的真实数学水平。
对标选手 ——
OpenAI 的 o1-mini、o1-preview
踢馆选手 ——
月之暗面 Kimi 的 k0-math:
在 Kimi Web 版的侧边栏,找到 👓 图标,点击进入。
学而思九章大模型:
https://playground.xes1v1.cn/MathGPT
阿里 QwQ-32B-preview:
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
夸克灵知大模型:
可在夸克 App 或夸克 PC 端,点击「AI 搜题」调用。
-1-
小学数学题
别看不起小学数学题。
小学数学多神题,大模型也最容易栽跟头。
小明 120 元买了一只鸡,130 元卖出去,150 元再买回来,160 元又卖出去,问:一共赚了多少钱?
答案:20 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
学而思九章大模型:
夸克灵知大模型:
阿里 QwQ-32B-preview:
总结:
一个西瓜进价 20 元,卖了 40 元,老板收了 100 元假币,问老板亏了多少钱?
答案:亏 80 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
学而思九章大模型:
夸克灵知大模型:
阿里 QwQ-32B-preview:
总结:
一段长 100 米的铁路,用 10 米长的铁轨铺,要多少根铁轨?
答案:20 根。一条火车轨道的铁轨有两条,所以要用到 20 根。这道题不仅考验数学能力,同时还要能结合实际生活。
o1-mini:
o1-preview:
Kimi 的 k0-math:
学而思九章大模型:
夸克灵知大模型:
阿里 QwQ-32B-preview:
总结:
-2-
初中数学题
某工程队承接一隧道工程,在挖掘一条 1000 米长的隧道时,为了尽快完成,实际施工时每天挖掘的长度是原计划的 2 倍,结果提前了 50 天完成了其中 800 米的隧道挖掘任务。求实际每天挖掘多少米?
答案:实际每天挖掘 16 米。
o1-mini:
o1-preview:
Kimi 的 k0-math:
学而思九章大模型:
夸克灵知大模型:
阿里 QwQ-32B-preview:
总结:
-3-
高中数学题
答案选:B
由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 无法上传图片,而题目中数学符号又难以输入,所以我们截图后,用 Kimi 常规版将其转为 LaTeX 格式:
\item 已知函数为 $f (x) = \left\{
\begin {array}{ll}
-x^2 - 2ax - a, & x < 0 \\
e^x + \ln (x + 1), & x \geq 0
\end {array}
\right.$,在 $\mathbb {R}$ 上单调递增,则 $a$ 取值的范围是 ()
\begin {enumerate}
\item A. $(-\infty, 0]$
\item B. $[-1, 0]$
\item C. $[-1, 1]$
\item D. $[0, +\infty)$
\end {enumerate}
o1-mini:
o1-preview:
Kimi 的 k0-math:
学而思九章大模型:
夸克灵知大模型:
由于该题目已在夸克的题库中,因此无法调用灵知大模型,以下为夸克常规搜题的结果。
阿里 QwQ-32B-preview:
总结:
从最终测试结果来看,经过几个月来的进化,国产大模型在数学方面确实有了很大的进步。
在常规数学题上,o1-mini 和 o1-preview 频频翻车,反倒是国产大模型发挥稳定。
不过,对于联系生活实际的题目,大模型们仍搞不定。比如计算铁轨那道题,国内外大模型们「全军覆没」。
此外,在做数学题时,这些大模型们的「脑回路」并不太一样。
相较而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做题时更加谨慎,它们得出答案后,会不断验证,并思考其他可能漏掉的情况。
学而思九章大模型则是先分析题目,然后解题并进行知识归纳,同时还提供了答案置信度。
夸克AI搜题的一大特色在于同一道题目提供多种解题思路,并可通过对话进一步请教相关知识点。