AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
“What I cannot create, I do not understand.”---Richard Feynman
尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。
最近,NLP 领域的突破,如 OpenAI o1,展示了 LLM 的推理能力并应对复杂语言任务的巨大潜力。这些进展的核心设计灵感源于类似 AlphaGo 的 “树搜索” 方法:通过使用 MCTS 等树搜索方法,自引导地构建中间思维树,探索有效的推理路径,并利用这些路径对模型进行训练,从而实现逐步推理能力的提升。
图 1. (a)CoMCTS 搜索有效性和效率比较。(b)基于 CoMCTS 数据训练的 Mulberry 模型展现了卓越的推理性能。
一个直观的想法是直接将树搜索方法应用于 MLLM 的有效推理路径搜索,但这种方法效果并不好,如图 1 所示。主要原因在于:
(1)搜索有效性:传统的 MCTS 方法依赖自我引导,而当前的 MLLMs 训练时没有明确且定义良好的中间推理步骤,导致搜索陷入单一 MLLM 推理空间的低质量同质节点,降低搜索成功率。
(2)搜索效率:传统 MCTS 方法每次搜索迭代通常仅扩展和探索一个后续推理节点,每次前进一步,需要大量迭代,使用 MLLM 进行推理进一步增加了计算复杂度。
为解决上述挑战,本文提出了集体蒙特卡罗树搜索(Collective Monte Carlo Tree Search, CoMCTS),这是一种新的学习推理方法,通过将集体学习引入 “树搜索”,实现有效且高效的推理路径搜索与学习。
论文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》 论文链接:https://arxiv.org/abs/2412.18319 代码链接:https://github.com/HJYao00/Mulberry
CoMCTS 搜索的优势在于:
(1)联合扩展多个 MLLM 的推理路径,支持跨模型协同推理,避免单一模型陷入同质化低质量节点。
(2)联合模拟与错误定位机制跳过反复中间步骤生成、集体知识帮助更准确地识别错误,提升搜索效率与效果。
此外,CoMCTS 也通过结合正负推理节点构建反思推理数据,使得 MLLM 可在长链路推理中进行逐步反思。最终,通过 CoMCTS,本文构建了通过逐步推理数据集 Mulberry-260K,训练了一系列 Mulberry 模型,在 8 个 benchmark 上取得了明显的提升。
研究方法
图 2. CoMCTS 总览图
CoMCTS 的推理路径搜索
CoMCTSw 将集体学习的概念引入到树搜索中,核心思想是通过多个模型的集体知识协作搜索有效的推理节点,并通过多次迭代最终找到正确的推理路径。
定义:将一个策略 MLLM 模型定义为 π,CoMCTS 利用一组多模态大语言模型 共同搜索并学习有效的推理路径。对于输入 Q = {文本,图像},每次迭代中,每个模型 π 生成一系列中间推理状态
,直到最终答案。第 m 步的中间推理状态定义为
,模型
在第 m 步生成状态为
,每步由一个或多个句子组成。
CoMCTS 算法从根节点开始,通过一定次数的迭代进行推理路径搜索,每次迭代包括四个关键操作:(a)扩展 Expansion,(b)模拟与错误定位 Simulation and Error Position,(c)反向传播 Backpropagation,以及(d)选择 Selection,具体说明如下:
(a)扩展。扩展当前叶子推理节点,整合新的候选推理节点。给定当前叶子节点
(由操作(d)选择或根节点),CoMCTS 利用一组 MLLM 的集体知识,协同扩展一组多样且互补的候选推理路径
,直到终止节点:
![图片](https://image.jiqizhixin.com/uploads/editor/66ee9e6d-4381-4761-9425-b9d4bea33548/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3d9bd00c-ca7d-4f71-bc6a-093e4baa8bf6/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8c9bd1d2-d3c3-455a-bd8a-8926fe408dd6/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7e1214e2-a011-4b52-ac29-ec15391be8d2/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/f57af6d7-fd14-47bb-bc9d-2e7574c51dd8/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b5a2ec65-560e-48cc-9958-206ba90892cc/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/af31213b-8d80-4a50-8653-57f45dbb1c1f/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/00a76f22-9305-4494-8cd6-ab39640c60b4/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/cb829724-213c-429c-b87d-3e94ce3e90d2/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/0232c946-ca3e-4b35-84ff-bb7d1a128cf3/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7e785583-240c-451a-9ca2-59d82291feeb/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c6c3f174-0db0-4b68-97e7-4fcf91f3f920/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/51136f5e-13f2-4f20-b206-e9a40b92dcd0/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/db26b34a-4397-4eaa-bada-f05501efc4c8/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8d31be77-044b-497f-9279-a7a4a1a1dce9/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/76d67145-2e9f-4d44-8946-d5f69e06643e/640.png)