Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。

OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 FlashVeo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。

图片

从名字也能看出来,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其经过专门训练,可使用思维(thoughts)来增强其推理能力。

据 Jeff Dean 介绍,Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中,模型解答了一个物理问题并解释了自己的推理过程,整个过程耗时 1 分多钟。
虽然 Flash 版本还不是 Gemini 2.0 的满血版,但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一,在编程、数学、创意写作等各项评测任务上都是第一名(有些是并列第一)。
图片
Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试,结果发现这两个推理模型的表现相当,而后者的速度要快得多。
图片
而根据另一位研究者 Subhash Peshwa 的测算,Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。
图片
Gemini 2.0 Flash Thinking 发布后,网友们都纷纷点赞,并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。
图片
图片
图片
目前,Gemini 2.0 Flash Thinking 实验版完全可以免费使用,感兴趣的读者可访问:
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219
图片
表现优异,但也会犯错

首先,Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如,Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题,比任何其他可以解决该问题的模型快 5 倍:
图片
在一道求解数学期望的问题上,OpenAI 的 o1 求解错误,而且推理速度很慢,而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答:
图片
解一道简单的数学推理题:挑选数字小球,使数字总和为 30:
                            来源:https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答,而且给出了详细的推理过程。

DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题,也是他的工作面试问题,Gemini 2.0 Flash Thinking 轻松解决了:
                              来源:https://x.com/drjwrae/status/1869806621024772096

可见,Gemini 2.0 Flash Thinking 可以准确识别视觉内容,并进行数学推理。

有时也会翻车,知道「strawberry」有 3 个「r」,但「strawberrry」就数不清了:
图片
「9.9 和 9.11 谁大」这事还是没能解决:
图片
顺带一提,关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因,可以参阅机器之心之前的报道《他们掰开神经元,终于让大模型 9.8 大于 9.11 了:神秘创业公司,开源 AI「洗脑」工具》。

Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题,比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题:三赌徒问题。然后他惊喜地发现,Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型,而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。
图片
三赌徒问题:假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家,让他们公平地掷一枚硬币;根据输赢,他们会正常地转手 1 美元。玩家一旦破产,就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。
下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。
图片
图片
机器之心也上手进行了一番测试。考虑到网络上已有大量使用英语的测试,这里我们就仅使用汉语了。

首先来看看 Gemini 2.0 Flash Thinking 的编程能力:写一个井字棋小游戏,其中用两个不同的 emoji 标记双方的棋子。
图片
可以看到,该模型用了 10.8s 思考,然后用 21.0s 完成了任务。测试一下,该模型生成的代码确实能正确实现功能。
图片
这里再测试一道来自《孙子算经》的古代数学题:今有物不知其数,三三数之剩二;五五数之剩三;七七数之剩二。问物几何?
图片
这一次,Gemini 2.0 Flash Thinking 思考了 11.1s,解答过程则用了 16.3s。有意思的是,该模型不仅正确解答了问题,也根据自己的知识库对相关信息进行了扩展说明。

Gemini 2.0 Flash Thinking 也支持输入图片和音频等模态的数据,可以帮助我们理解梗图或者解答手写的数学问题。
图片
最后,我们来试试 Gemini 2.0 Flash Thinking 能否解读中文的验证码。
图片
很显然,它彻底失败了,一个字都没能正确识别出来,所以暂时还不用担心被 AI 盗号了。

Gemini 2.0 Flash Thinking,着实有趣,就是名字有点长。
产业谷歌Gemini 2.0 Flash Thinking
暂无评论
暂无评论~