
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文由微软亚洲研究院的谢天、洪毓谦、邱凯、武智融、罗翀,九坤投资高梓添、Bryan Dai、Joey Zhou,以及独立研究员任庆楠、罗浩铭合著完成。
只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?继中国大模型突破硅谷围堵后,国内团队再放大招,揭秘 DeepSeek R1 背后的秘密。他们通过仅五千条合成数据进行低成本强化学习,让 7B 小模型在逻辑推理测试中的表现超越 OpenAI o1,直逼 o3-mini-high。更令人惊叹的是,在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了 125%!论文标题:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
论文链接:https://arxiv.org/abs/2502.14768
Github 链接:https://github.com/Unakar/Logic-RL
这是首个全面深入的类 R1 强化学习模型训练动态过程分析。需要强调的是,该团队不仅完整开源了全流程代码,还发布了详细的参数设置,训练数据和设计经验。1.DeepSeek R1 所采用的 GRPO 未必就是最合适的强化学习(RL)算法?应该如何调参实现稳定训练?由易到难的课程学习还有用吗?2. 从 Base 模型启动 RL 与完全冷启动,究竟有多大差异?哪种方式更优?3. 训练中,模型输出长度常呈现近似线性增长的 Scaling Law,但这种增长速度是否等同于推理能力的提升?4. 当模型频繁使用 “verify” “check” 等反思性词汇时,是否意味着其推理能力增强了?哪些 token 能可靠反映推理性能的提升?5.RL 是真正掌握了抽象推理能力,还是仅仅依赖问题模板的死记硬背?相比传统有监督微调(SFT),它的优势究竟体现在哪里?6. 推理过程中,模型时常混用中文和英文,这种语言切换现象对性能提升是否有实际帮助,甚至是否可能有害?随着强化学习 (RL) 训练进行,各观测指标变化。红线是模型回答长度,蓝线是验证集准确率,黄色散点是两种域外 (OOD) 的数学竞赛正确率,三者均保持稳定增长趋势:测试时的计算量,自然而然地从数百 token,扩展到了数千 token,暗示着 RL 训练正在鼓励模型对思考路径进行不断的探索和修正。在经过 5K 个逻辑问题的训练后,7B 模型就发展出了一些在逻辑语料库中原本不存在的高级推理技能 —— 如自我反思、验证和总结能力。在没见过的数学竞赛题 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。常见的数学训练集在问题难度上无明确界限,数学问题往往具有不定的逻辑深度、知识背景要求,对可控的分析实验不友好。于是为了分析推理模型的机制,作者转向了完全由程序合成的的「逻辑谜题」作为训练数据。示例问题:一个非常特殊的岛屿上只住着骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey 和 Oliver。Zoey 说:「Oliver 不是骑士。」Oliver 说:「Oliver 是骑士且 Zoey 是骗子。」请问,谁是骑士,谁是骗子?
这个「骑士与骗子」谜题,因其合成设计和逻辑精确性而非常适合进一步分析:1. 谜题对于模型来说都是未见过的数据,非常适合用来测试泛化能力2. 通过改变游戏人数(2 到 8 个)和逻辑运算的深度(1 到 4 种布尔运算符的组合),可以调节难度3. 每个谜题都有一个单一、明确的正确答案,正确性由生成算法保证。解答需要严格的演绎推理,因此减少了奖励作弊的风险4. 这消除了自然语言任务中常见的模糊性,使我们能够清晰地区分真正的推理能力和数据表面上的记忆能力。模型起初会用作弊 (hack) 的方式来骗取奖励分:跳过 <think></think> 过程并直接回答。
将推理过程放在 <answer></answer> 标签内。
反复猜测答案而没有适当的推理。
在提供答案之外包含无关的废话。
在已经输出一个 <answer> 后再次进入思考阶段,因为推理不足。
重复原始问题或使用诸如 “在此处进行思考过程” 之类的短语来避免真正的推理。
多轮迭代改进奖励函数后,作者设计出了一种几乎无法作弊的基于规则的奖励系统。仅包含两种奖励类型:格式奖励和答案奖励。思考标签应该严格按照顺序出现,且出现次数唯一,思考过程必须包含真正的推理,答案组织要可提取且可读。为了减少 Base 模型指令跟随难度(遵守先思考再回答的范式),作者建议直接把 < think > 标签手动加入 prompt 里。作者经过百组对比实验,对比了 PPO,GRPO,和 REINFORCE++。最后选择采用性价比最好的 REINFORCE++ 算法完成主实验。团队遵循 DeepSeek Math 论文的建议,改动了 REINFORCE++ 算法实现,提出了两点修正:将 KL 惩罚从 reward 计算提出,放进 loss 函数里;并且更换 KL 估计器,采用一种无偏非负的 KL 估计。训练方式上,作者尝试了多组复杂调度 (例如高低温多阶段训练),发现增益不高,由此决定采用最简单的训练方式:使用 4e-7 的学习率以及 0.7 的温度一训到底。经过 3.6K 步数的训练之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。作者检查了思考相关的词汇,在模型输出的 < think></think > 内出现与否,对应答案的准确率:1. 当 "wait" "verify" "yet"(稍等,验证,然而)等等词出现的时候,推理性能明显更高。然而也有意想不到的情况:“recheck” 出现的时候,会导致推理分数下降,不是所有人们以为的思考词都能涨点。recheck 可能表示模型总是举棋不定,会更大概率犯错。2. 说 re-evaluate 和 reevaluate(再次评估)的行为完全不一样。前者涨,后者跌。作者检查了原始模型输出,发现前者的频次本身就很高,而后者几乎不出现,这似乎表明模型使用自己偏好的词能更顺利地完成推理过程。3. 语言混杂现象 (例如中英夹杂回答问题) 虽然迷人,但会削弱模型性能,增加模型犯错的几率。由此作者建议在格式奖励中加入语言一致性惩罚。不仅能提高用户的可读性,还能潜在地增强性能。突如其来的 Aha Moment 或许根本不存在?作者统计了训练过程中思考相关的各词频变化。RL 训练自然地提高了与反思相关词汇(如 verify, check)以及语气舒缓词(let's, yet, now that..)的频率。似乎不存在忽然的顿悟时刻 —— 即所谓的 Aha moment。这些思考性词汇,在训练的前十步就已经出现,只是频次很低。并且在训练过程中,这些词语的词频只是缓慢增长,并不存在突然的顿悟。在训练数据集上进行扰动,例如更换逻辑题里的表述(and->or/not),调换多人进行陈述的顺序,使得问题答案和解答路径发生完全改变。如果模型真的学会了题目背后的推理技能,应该在题目被扰动后还能保持相当的正答率。于是定义记忆分数 (LiMem) 为:测试集正确率 * 训练集扰动后的出错率。为了获得合理的有监督微调(SFT)思维链数据,作者用原模型进行 50 次拒绝采样,挑选正确且最短的输出作为新的 CoT 数据集。由此合理对比拒绝采样微调(RFT)和强化学习(RL)的效率和记忆性。SFT 是在记忆分数 (横轴) 大幅增长的代价下,换取少量的测试集分数提高的;而 RL 几乎不增长记忆性 (甚至出现了负增长),而纵轴上的测试集分数快速增长。这暗示着强化学习的优越性:不依赖于数据本身的结构,用极低的数据代价就能实现高效进化,体现出超越当前数据领域的强大泛化性。作者在训练过程中找到几组反例,有力地驳斥了这种观点。虽然训练动态中模型输出长度总是自然增长,但其涨幅不能代表推理性能的同步增长。有时候模型会陷入 " 过度思考 “困境,输出过长的思维链,更容易触发长度崩坏。最有效率的思考过程,往往来自最短且正确的路径。故而,更长的输出长度不是训练过程里衡量推理性能的有效指标,只能当成自然产生的副产物看待。对测试集分数与模型输出的观察,是更稳妥的做法。