2025/02/25 11:29

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文由微软亚洲研究院的谢天、洪毓谦、邱凯、武智融、罗翀，九坤投资高梓添、Bryan Dai、Joey Zhou，以及独立研究员任庆楠、罗浩铭合著完成。

只刷逻辑益智题，竟能让 AI 数学竞赛水平大幅提升？

继中国大模型突破硅谷围堵后，国内团队再放大招，揭秘 DeepSeek R1 背后的秘密。他们通过仅五千条合成数据进行低成本强化学习，让 7B 小模型在逻辑推理测试中的表现超越 OpenAI o1，直逼 o3-mini-high。更令人惊叹的是，在完全未见过的美国数学奥林匹克（AIME）测试中，该模型的推理性能提升了 125%！

论文标题：Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
论文链接：https://arxiv.org/abs/2502.14768
Github 链接：https://github.com/Unakar/Logic-RL

这是首个全面深入的类 R1 强化学习模型训练动态过程分析。需要强调的是，该团队不仅完整开源了全流程代码，还发布了详细的参数设置，训练数据和设计经验。

研究团队开宗明义，提出要探究以下问题：

1.DeepSeek R1 所采用的 GRPO 未必就是最合适的强化学习（RL）算法？应该如何调参实现稳定训练？由易到难的课程学习还有用吗？

2. 从 Base 模型启动 RL 与完全冷启动，究竟有多大差异？哪种方式更优？

3. 训练中，模型输出长度常呈现近似线性增长的 Scaling Law，但这种增长速度是否等同于推理能力的提升？

4. 当模型频繁使用 “verify” “check” 等反思性词汇时，是否意味着其推理能力增强了？哪些 token 能可靠反映推理性能的提升？

5.RL 是真正掌握了抽象推理能力，还是仅仅依赖问题模板的死记硬背？相比传统有监督微调（SFT），它的优势究竟体现在哪里？

6. 推理过程中，模型时常混用中文和英文，这种语言切换现象对性能提升是否有实际帮助，甚至是否可能有害？

随着强化学习 (RL) 训练进行，各观测指标变化。红线是模型回答长度，蓝线是验证集准确率，黄色散点是两种域外 (OOD) 的数学竞赛正确率，三者均保持稳定增长趋势：

测试时的计算量，自然而然地从数百 token，扩展到了数千 token，暗示着 RL 训练正在鼓励模型对思考路径进行不断的探索和修正。

在经过 5K 个逻辑问题的训练后，7B 模型就发展出了一些在逻辑语料库中原本不存在的高级推理技能 —— 如自我反思、验证和总结能力。在没见过的数学竞赛题 (AIME/AMC）上，各自取得了 125% 和 38% 的性能提升。

方法

数据设定

常见的数学训练集在问题难度上无明确界限，数学问题往往具有不定的逻辑深度、知识背景要求，对可控的分析实验不友好。于是为了分析推理模型的机制，作者转向了完全由程序合成的的「逻辑谜题」作为训练数据。

示例问题：一个非常特殊的岛屿上只住着骑士和骗子。骑士总是说真话，骗子总是说谎。你遇到两位岛民：Zoey 和 Oliver。Zoey 说：「Oliver 不是骑士。」Oliver 说：「Oliver 是骑士且 Zoey 是骗子。」请问，谁是骑士，谁是骗子？

这个「骑士与骗子」谜题，因其合成设计和逻辑精确性而非常适合进一步分析：

1. 谜题对于模型来说都是未见过的数据，非常适合用来测试泛化能力

2. 通过改变游戏人数（2 到 8 个）和逻辑运算的深度（1 到 4 种布尔运算符的组合），可以调节难度

3. 每个谜题都有一个单一、明确的正确答案，正确性由生成算法保证。解答需要严格的演绎推理，因此减少了奖励作弊的风险

4. 这消除了自然语言任务中常见的模糊性，使我们能够清晰地区分真正的推理能力和数据表面上的记忆能力。

奖励设计

模型起初会用作弊 (hack) 的方式来骗取奖励分：

跳过 <think></think> 过程并直接回答。
将推理过程放在 <answer></answer> 标签内。
反复猜测答案而没有适当的推理。
在提供答案之外包含无关的废话。
在已经输出一个 <answer> 后再次进入思考阶段，因为推理不足。
重复原始问题或使用诸如 “在此处进行思考过程” 之类的短语来避免真正的推理。

多轮迭代改进奖励函数后，作者设计出了一种几乎无法作弊的基于规则的奖励系统。仅包含两种奖励类型：格式奖励和答案奖励。思考标签应该严格按照顺序出现，且出现次数唯一，思考过程必须包含真正的推理，答案组织要可提取且可读。

格式奖励：按格式正确与否给 + 1 或 - 1 的奖励。
答案奖励：答案无法被提取，奖励为 - 2；答案部分错误时，奖励为 - 1.5，答案正确时，奖励为 + 2。

为了减少 Base 模型指令跟随难度（遵守先思考再回答的范式），作者建议直接把 < think > 标签手动加入 prompt 里。

实验结果

作者经过百组对比实验，对比了 PPO，GRPO，和 REINFORCE++。最后选择采用性价比最好的 REINFORCE++ 算法完成主实验。团队遵循 DeepSeek Math 论文的建议，改动了 REINFORCE++ 算法实现，提出了两点修正：将 KL 惩罚从 reward 计算提出，放进 loss 函数里；并且更换 KL 估计器，采用一种无偏非负的 KL 估计。

训练方式上，作者尝试了多组复杂调度 (例如高低温多阶段训练)，发现增益不高，由此决定采用最简单的训练方式：使用 4e-7 的学习率以及 0.7 的温度一训到底。经过 3.6K 步数的训练之后，模型超越 OpenAI o1 2 倍，直逼 o3-mini-high 的性能。

有趣的发现与分析

「思考」token 词频与推理能力的关系？

作者检查了思考相关的词汇，在模型输出的 < think></think > 内出现与否，对应答案的准确率：

1. 当 "wait" "verify" "yet"（稍等，验证，然而）等等词出现的时候，推理性能明显更高。然而也有意想不到的情况：“recheck” 出现的时候，会导致推理分数下降，不是所有人们以为的思考词都能涨点。recheck 可能表示模型总是举棋不定，会更大概率犯错。

2. 说 re-evaluate 和 reevaluate（再次评估）的行为完全不一样。前者涨，后者跌。作者检查了原始模型输出，发现前者的频次本身就很高，而后者几乎不出现，这似乎表明模型使用自己偏好的词能更顺利地完成推理过程。

3. 语言混杂现象 (例如中英夹杂回答问题) 虽然迷人，但会削弱模型性能，增加模型犯错的几率。由此作者建议在格式奖励中加入语言一致性惩罚。不仅能提高用户的可读性，还能潜在地增强性能。

突如其来的 Aha Moment 或许根本不存在？

作者统计了训练过程中思考相关的各词频变化。RL 训练自然地提高了与反思相关词汇（如 verify, check）以及语气舒缓词（let's, yet, now that..）的频率。

似乎不存在忽然的顿悟时刻 —— 即所谓的 Aha moment。这些思考性词汇，在训练的前十步就已经出现，只是频次很低。并且在训练过程中，这些词语的词频只是缓慢增长，并不存在突然的顿悟。

SFT 依赖记忆；RL 泛化性更好

在训练数据集上进行扰动，例如更换逻辑题里的表述（and->or/not），调换多人进行陈述的顺序，使得问题答案和解答路径发生完全改变。如果模型真的学会了题目背后的推理技能，应该在题目被扰动后还能保持相当的正答率。于是定义记忆分数 (LiMem) 为：测试集正确率 * 训练集扰动后的出错率。

为了获得合理的有监督微调（SFT）思维链数据，作者用原模型进行 50 次拒绝采样，挑选正确且最短的输出作为新的 CoT 数据集。由此合理对比拒绝采样微调（RFT）和强化学习（RL）的效率和记忆性。

SFT 是在记忆分数 (横轴) 大幅增长的代价下，换取少量的测试集分数提高的；而 RL 几乎不增长记忆性 (甚至出现了负增长)，而纵轴上的测试集分数快速增长。

这暗示着强化学习的优越性：不依赖于数据本身的结构，用极低的数据代价就能实现高效进化，体现出超越当前数据领域的强大泛化性。

更长的思考过程是否代表了更好的推理性能？

作者在训练过程中找到几组反例，有力地驳斥了这种观点。

虽然训练动态中模型输出长度总是自然增长，但其涨幅不能代表推理性能的同步增长。有时候模型会陷入 " 过度思考 “困境，输出过长的思维链，更容易触发长度崩坏。最有效率的思考过程，往往来自最短且正确的路径。

故而，更长的输出长度不是训练过程里衡量推理性能的有效指标，只能当成自然产生的副产物看待。对测试集分数与模型输出的观察，是更稳妥的做法。

其它结果

除了上述结果，该研究还有几个有趣的发现：

冷启动自有其好处，但非必需。无论是从 Base 模型还是 Instruct 模型开始，训练动态都保持惊人的相似性。不过 SFT 后的模型往往拥有略高的准确率。
对难度递进的课程学习仍然重要。在固定的数据混合比例下，精心设计的课程学习方法总是优于随机打乱。

更多研究细节，请参阅论文原文！

工程DeepSeek R1