AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
一.引言
推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。
主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。当处理复杂任务,如高级数学和编程问题时,模型需要更细粒度的搜索、更精确的推理步骤和更长的思维链,导致状态空间和策略空间的规模急剧扩大,难度大幅上升。
Inference scaling 策略,不依赖训练,通过延长推理时间进一步提高模型的 Reasoning 能力。常见方法,如 Best-of-N 或者蒙特卡洛树搜索(MCTS),允许 LLM 同时探索多条推理路径,扩大搜索空间,朝着更有希望的方向前进。这些方法计算成本高,特别是步骤多或搜索空间大的时候。采样随机性使得确定最佳路径困难,且依赖手动设计的搜索策略和奖励函数,限制了泛化能力。
在此背景下,普林斯顿大学团队联合北京大学团队合作开发了名为 ReasonFlux 的多层次(Hierarchical)LLM 推理框架。
文章链接:https://arxiv.org/abs/2502.06772
开源地址:https://github.com/Gen-Verse/ReasonFlux
(该论文作者特别声明:本工作没有蒸馏或用任何方式使用 DeepSeek R1。)
基于层次化强化学习(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一种更高效且通用的大模型推理范式,它具有以下特点:
思维模版:ReasonFlux 的核心在于结构化的思维模板,每个模版抽象了一个数学知识点和解题技巧。仅用 500 个通用的思维模板库,就可解决各类数学难题。
层次化推理和强可解释性:ReasonFlux 利用层次化推理(Hierarchical Reasoning)将思维模板组合成思维轨迹(Thought Template Trajectory)、再实例化得到完整回答。模型的推理过程不再是 “黑盒”,而是清晰的展现了推理步骤和依据,这为 LLM 的可解释性研究提供了新的工具和视角,也为模型的调试和优化提供了便利。与 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大压缩并凝练了推理的搜索空间,提高了强化学习的泛化能力,提高了 inference scaling 的效率。
轻量级系统:ReasonFlux 仅 32B 参数,强化训练只用了 8 块 NVIDIA A100-PCIE-80GB GPU。它能通过自动扩展思维模板来提升推理能力,更高效灵活。
![图片](https://image.jiqizhixin.com/uploads/editor/0c87bdbb-15a9-470b-a0cd-cba4af648070/640.png)
ReasonFlux-32B 在多个数学推理基准测试中表现出色,仅仅用了 500 个基于不同数学知识点的思维模版,就展现了其强大的推理能力和跻身第一梯队的实力。
结构化的思维模板抽取:ReasonFlux 利用大语言模型从以往的数学问题中提取了一个包含大约 500 个结构化思维模板的知识库。每个模板都包含标签、描述、适用范围、应用步骤等信息,这些信息经过组织和结构化处理,为 LLM 的推理提供了元知识参考。这些模板覆盖了多种数学问题类型和解题方法,如不等式求解、三角函数变换、极值定理等,是 ReasonFlux 进行推理的基础。 多层次强化学习(Hierarchical RL) — 选择最优的 Thought Template Trajectory:该算法通过 Hierarchical Reinforcement Learning 训练一个 High-level 的 navigator,使其能够对输入问题进行拆解,转而求解多个更简单的子问题,根据子问题类型从模板库中检索相关的思维模板,并规划出最优的 Thought Template Trajectory。它可以看作是解决问题的 “路线图”,它由一系列的模板组合而成。这种基于 Hierarchical RL 的优化算法通过奖励在相似问题上的泛化能力,提升了推理轨迹的鲁棒性和有效性,使得 ReasonFlux 能够举一反三,为各种数学问题生成有效的思维模板轨迹。 新型 Inference Scaling 系统:该系统实现了结构化模板库和 inference LLM 之间的多轮交互。“Navigator” 负责规划模板轨迹和检索模板,inference LLM 负责将模板实例化为具体的推理步骤,并通过分析中间结果来动态调整轨迹,实现高效的推理过程。这种交互机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。
![图片](https://image.jiqizhixin.com/uploads/editor/f6b273ea-4576-45a3-b117-21c8c68e8968/640.png)
分析与规划:ReasonFlux 首先对题目进行分析,确定了解题的主要步骤:初步确定 k 值的范围、利用三角换元、化简方程组、求解 θ、计算目标值。这一步反映了 ReasonFlux 的问题分析和规划能力,为后续解题过程提供了基础。 模板化推理:ReasonFlux 随后依次应用了 “三角换元”、“化简方程组”、“求解 θ” 等模板,将复杂的方程组逐步简化,并最终求解出 θ 的值。每一步都依据模板的指导,旨在保证解题过程的准确性。 逐步推导:ReasonFlux 根据求得的角度值,计算出 (x, y, z) 的值,并最终计算出目标值 ,从而得到 (m=1, n=32, m+n=33)。整个过程逻辑清晰,步骤明确,展示了 ReasonFlux 的规划和推理能力。
![图片](https://image.jiqizhixin.com/uploads/editor/29d28735-fca7-4511-9a48-c74ba5ada2f5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/d5c1e9c7-9bb4-4760-9bcd-94b33ea45417/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/eb987ce6-c9f4-47a5-8b36-3b0a84e07d23/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9a136b79-5e0d-4c40-8e4a-37a3e07ec6d5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/30ced3da-681a-4d2b-842a-a1820e9cb881/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8b8b280e-3fed-4e51-bfb6-6beb35f97180/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3fb774b6-4847-4035-9873-ea97b7a39c51/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/37084743-180e-491c-bd9c-926db2981077/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c72738fa-e766-49d4-8d2d-37e6171cedb7/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b2291046-aaee-4f9f-b01e-924a24989571/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9d2ea730-6101-43dc-b246-6a5f1439b634/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/2f86b5a6-7e39-47ad-ada0-eafec1f3ae42/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/20e8e128-6337-4128-a73f-3a7ae574c9d5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/40356164-0c18-49c4-80e0-da6e905cd807/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/708a0fbb-e0d5-4f0e-9de8-6f6fe3d96692/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8390814e-35b1-4c24-a49e-f438196a8220/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/18768c67-2eb5-4f7f-9d87-b8b8fc95cefc/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b4302c8e-94fa-4dd0-853d-583a30299d79/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c69cb8fe-1262-4d2e-bd99-b1b6b512a430/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/63d428c2-6517-4ff6-8325-cb810b4f9d54/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/e9642f06-6633-412e-9f93-f375f1a33967/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/877d91d7-b838-471c-9816-3cbcc9614169/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8cdadf91-0637-4026-b268-684e49e5f6be/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/d021cf51-9d6f-4aaf-9226-123ba81a3646/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/eafd99c8-04e1-4ef0-afce-9b904c6aa209/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/ee634a5e-e382-4414-8858-f0f4129bc14f/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/6483bfa9-c098-41b4-8215-97ed42a54bdf/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/0b4b8632-d1b0-4cca-a160-67e96df28d21/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/bc3ee071-e072-4e54-af51-5848d1573315/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/dc046bbc-0c40-466d-b8a4-ac23ec0fb9f0/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3d7d7f65-d111-4a42-ab23-6bd2d0fc5ff9/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8786ed50-d156-4447-abb1-e90f7db17797/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/1a49646f-a1a5-49ae-ae29-a56476f68c51/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/2509fb13-320a-470c-b98e-6646179c5bbe/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8d4df1a4-74d6-47ac-8cac-291d686a78df/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3bfe669a-2eb9-4f10-bdad-9bebc931e820/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/951fe688-0690-49a5-b4a6-b6e6de8416a3/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a4c455d2-19ce-4b4a-930d-66691a13c54f/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/1324040c-c57d-4e2a-897b-d2f138412ee3/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/4e41b293-b3c3-44d3-85bd-202716e3bfa3/640.png)
杨灵:北大在读博士,普林斯顿高级研究助理,研究领域为大语言模型和扩散模型。
余昭辰:新加坡国立大学在读硕士,北京大学 PKU-DAIR 实验室科研助理,研究领域为大语言模型和扩散模型。
崔斌教授:崔斌现为北京大学计算机学院博雅特聘教授、博士生导师,担任计算机学院副院长、数据科学与工程研究所所长。他的研究方向包括数据库系统、大数据管理与分析、机器学习 / 深度学习系统等。
王梦迪教授:王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。