Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

“What I cannot create, I do not understand.”---Richard Feynman

尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。

最近,NLP 领域的突破,如 OpenAI o1,展示了 LLM 的推理能力并应对复杂语言任务的巨大潜力。这些进展的核心设计灵感源于类似 AlphaGo 的 “树搜索” 方法:通过使用 MCTS 等树搜索方法,自引导地构建中间思维树,探索有效的推理路径,并利用这些路径对模型进行训练,从而实现逐步推理能力的提升。

图片

                                 图 1. (a)CoMCTS 搜索有效性和效率比较。(b)基于 CoMCTS 数据训练的 Mulberry 模型展现了卓越的推理性能。

一个直观的想法是直接将树搜索方法应用于 MLLM 的有效推理路径搜索,但这种方法效果并不好,如图 1 所示。主要原因在于:

(1)搜索有效性:传统的 MCTS 方法依赖自我引导,而当前的 MLLMs 训练时没有明确且定义良好的中间推理步骤,导致搜索陷入单一 MLLM 推理空间的低质量同质节点,降低搜索成功率。

(2)搜索效率:传统 MCTS 方法每次搜索迭代通常仅扩展和探索一个后续推理节点,每次前进一步,需要大量迭代,使用 MLLM 进行推理进一步增加了计算复杂度。

为解决上述挑战,本文提出了集体蒙特卡罗树搜索(Collective Monte Carlo Tree Search, CoMCTS),这是一种新的学习推理方法,通过将集体学习引入 “树搜索”,实现有效且高效的推理路径搜索与学习

图片

  • 论文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》
  • 论文链接:https://arxiv.org/abs/2412.18319
  • 代码链接:https://github.com/HJYao00/Mulberry

CoMCTS 搜索的优势在于:

(1)联合扩展多个 MLLM 的推理路径,支持跨模型协同推理,避免单一模型陷入同质化低质量节点。

(2)联合模拟与错误定位机制跳过反复中间步骤生成、集体知识帮助更准确地识别错误,提升搜索效率与效果。

此外,CoMCTS 也通过结合正负推理节点构建反思推理数据,使得 MLLM 可在长链路推理中进行逐步反思。最终,通过 CoMCTS,本文构建了通过逐步推理数据集 Mulberry-260K,训练了一系列 Mulberry 模型,在 8 个 benchmark 上取得了明显的提升。

研究方法

图片

                                图 2. CoMCTS 总览图

CoMCTS 的推理路径搜索

CoMCTSw 将集体学习的概念引入到树搜索中,核心思想是通过多个模型的集体知识协作搜索有效的推理节点,并通过多次迭代最终找到正确的推理路径。

定义:将一个策略 MLLM 模型定义为 π,CoMCTS 利用一组多模态大语言模型 图片共同搜索并学习有效的推理路径。对于输入 Q = {文本,图像},每次迭代中,每个模型 π 生成一系列中间推理状态图片,直到最终答案。第 m 步的中间推理状态定义为 图片,模型 图片在第 m 步生成状态为 图片,每步由一个或多个句子组成。

CoMCTS 算法从根节点开始,通过一定次数的迭代进行推理路径搜索,每次迭代包括四个关键操作:(a)扩展 Expansion,(b)模拟与错误定位 Simulation and Error Position,(c)反向传播 Backpropagation,以及(d)选择 Selection,具体说明如下:

(a)扩展。扩展当前叶子推理节点,整合新的候选推理节点。给定当前叶子节点 

图片(由操作(d)选择或根节点),CoMCTS 利用一组 MLLM 的集体知识,协同扩展一组多样且互补的候选推理路径 图片,直到终止节点:

图片

其中 图片 返回 图片 的所有父节点,而 图片 表示从根节点到 图片 的当前推理路径。图片表示由模型 图片 从  图片 开始生成的候选推理路径。

(b)模拟与错误定位。CoMCTS 利用多个模型的集体知识,共同模拟候选子节点 图片(在操作(a)中添加的节点)的候选值,将低分节点视为错误推理节点,过滤掉第一个小于阈值 t 的节点及其之后的所有节点:
图片
(c)反向传播。CoMCTS 从叶子节点向根节点进行自底向上的更新。推理树中新扩展路径上的每个节点 s 都会更新其统计信息,包括访问次数 N 和节点值 V:
图片
其中,Child (s) 表示节点 s 的所有子节点,CountChild 表示用于计算节点 s 在候选集中的子节点数量的计数函数。

(d)选择节点。CoMCTS 根据上置信界限(UCB)值遍历更新后的推理树,选择 UCB 值最高的候选节点 图片 作为下一个搜索迭代的起始节点。
图片
针对每个问题,重复迭代上述四个操作,直至达到预定次数或找到正确的推理路径。CoMCTS 为每个问题构建明确的集体推理树,帮助 MLLM 学习逐步推理能力。

CoMCTS 中的反思学习

CoMCTS 构建的推理树包含了正向和负向的推理节点,通过将负向的兄弟节点整合进有效的推理路径中,以构建包含从负向推理节点过度的反思性推理路径。具体来说,通过识别 UCB 差值最大的兄弟节点来构建反思路径,如图 2 和图 3 所示。

图片

                               图 3. CoMCTS 搜索推理树示例。

使用集体蒙特卡罗树搜索进行训练

通过 CoMCTS 构建有效推理和反思性推理数据集,并使用集体 SFT 对模型进行训练,使模型具备逐步推理与反思能力。
图片
实验数据

推理数据组成:为了构建一个通用的推理数据集,本文从多个领域搜集了原始多模态输入问题。将这些原始数据用 CoMCTS 方法搜索推理和反思路径,最终得到 Mulberry-260K SFT 数据集。

推理数据分布:CoMCTS 生成的推理步骤大多集中在 6 到 8 步之间,简单任务在 6 到 7 步,复杂任务在 7 到 10 步。结果表明,CoMCTS 能生成灵活的推理路径,帮助 MLLM 根据任务复杂性调整推理深度。
图片
                                 图 4. 推理数据的步骤长度分布

实验结果

性能比较

(1)与基准模型比较。实验表明,Mulberry-260K 训练的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分别提高了 + 4.2% 和 + 7.5%,验证了 CoMCTS 的有效性。此外,Mulberry-260K 训练的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分别提升了 + 5.4% 和 + 11.0%,证明了其泛化能力。

(2)与推理模型比较。使用 LLaVA-NeXT-8B 基准模型时,Mulberry 在 MathVista 上分别比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%,在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基准 LLaMA-3.2-11B-Vision-Instruct 下,Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其优势来自 CoMCTS 的树搜索和灵活的推理步骤设计。

(3)与 SOTA 模型比较。Mulberry 在基准测试中优于大多数开源 MLLM,并在与闭源模型的比较中展现出竞争力,得益于 CoMCTS 搜索数据的训练。
图片
                                表 1. 主要实验结果比较

消融实验

(1)CoMCTS 的消融研究。表 2 为使用 GPT-4o 作为基线进行的关于 CoMCTS 消融实验。仅使用 GPT-4o 的 CoMCTS 将成功率提升至 63.8%,验证了 CoMCTS 设计的有效性。逐步引入更多模型进一步提升成功率,即使较小的 Qwen2-VL-7B 也提高了性能(+2.4%),展现了 CoMCTS 在集体知识上的优势。使用四个模型时,搜索成功率达到了 80.2%。
图片
                                   表 2. CoMCTS 的消融实验

(2)有效和反思推理的消融实验。表 3 显示,加入反思性数据后,MathVista 上的性能提高了 0.8%,验证了 CoMCTS 搜索的推理数据与反思性数据的互补性。

图片

                                 表 3. CoMCTS 推理数据和反思数据的消融实验

讨论

(1)与其它树搜索方法的比较。将 CoMCTS 与其他树搜索方法比较,表 4 显示,现有方法对搜索性能提升有限,主要因传统 MCTS 易陷入单一 MLLM 的低质量节点。CoMCTS 在搜索效果和效率上具有显著优势,得益于集体扩展机制,使推理路径搜索不仅限于单一 MLLM 推理空间,还能跨多个 MLLM 推理空间,避免了陷入单一推理空间的困境。

图片

                               表 4. CoMCTS 其它树搜索方法的比较。

(2)定型分析。下图定性分析比较显示,LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的预测相对较短,缺乏深入的思考,导致错误的答案。相反,Mulberry,生成了丰富、明确且结构良好的推理步骤,最终得出了正确的答案。

图片

                                   图 5. 可视化
工程集体蒙特卡罗树搜索
暂无评论
暂无评论~