2025/03/14 11:58

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。

例如，R1-V 仅在简单计数任务上表现出进步，未能实现回答长度的增长和顿悟时刻；R1-Multimodal-Journey 则在训练过程中回答长度反而降低；LMM-R1 虽然有所进步，但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出，但并未开源其模型或数据。

论文标题：MM-EUREKA：EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
代码地址：https://github.com/ModalMinds/MM-EUREKA
技术报告：https://arxiv.org/pdf/2503.07365
模型地址：https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
https://huggingface.co/FanqingM/MM-Eureka-8B
数据集地址：https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我们这篇工作聚焦于一个核心问题：如何在多模态环境中复现 DeepSeek-R1 的关键特性，包括稳定的回答长度增长、准确率奖励以及 Visual aha-moment？

为了解答这一问题，来自上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员提出了多模态学科推理模型 MM-Eureka。

我们的探索

开源框架：我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架，支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架，我们的方案成功训练了 InternVL 2.5-38B 等大型模型。

稳定训练：我们开发了两个模型——MM-Eureka-8B（基于 InternVL 2.5-Instruct-8B）和 MM-Eureka-Zero-38B（基于 InternVL 2.5-Pretrained-38B），均成功复现了稳定的 accuracy reward、response length 增长以及 Visual aha-moment。

极大的数据效率：仅使用 54K 图文数据进行规则型 RL 训练，平均性能超过使用 1M 数据的 MPO 模型；整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当！MM-Eureka-Zero 仅使用 8K 图文数学推理数据（指令模型的 0.05%），在我们自建的 K12 基准测试上超越指令模型 8.2%，在 MathVerse 上表现相当。

重要发现

极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时，添加 KL 散度会限制模型探索，导致无法观测到 response length 的提高。

数据选择对于稳定 RL 训练很重要！基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时，若不进行数据过滤，训练过程极其不稳定。

模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment，特别是模型不仅学会反思和回溯，还学会重新审视图像中的关键信息，我们认为这是 Visual aha-moment 的关键特征。

我们的成果

无论在 Instruct 还是 Pretrained Model 上，我们均在极简 RL 设计以及数据筛选策略下实现了稳定的 Accuracy Reward 提升和 Response Length 提升。

在 Instruct 模型上，几乎全部使用开源数据（50K），便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略，比如 MPO（1M 数据）和 CoT SFT（12M 数据），我们发现简单的 rule-based RL 具备极强的数据高效性，使用几十分之一的数据，平均性能超过 MPO，与 CoT SFT 相当。

在 Pretrained 模型上进一步挖掘 RL 潜力，仅需 8K 多模态数学推理数据，即可在奥林匹克数学测试集（部分）和 K12 数学推理测试集上，超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上，两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%，凸显了强化学习的巨大潜力！

其他尝试与反思

我们在复现过程中进行了许多其他的尝试，在此分享一些我们认为有帮助，但并未成功验证的操作。我们认为这并不代表这些方法有问题，而是需要进一步探索。

Curriculum Learning：尽管我们基于难度划分数据并尝试从易到难训练，但未观察到明显性能提升。我们认为简单问题的学习难以直接泛化到难题，如何更有效地组织课程学习数据仍需探索。

Online Data Filter：我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练，但其数据利用率降低了，因此我们希望在模型训练过程中动态进行基于难度的数据筛选（类似 PRIME）。然而，我们发现训练结果不如 offline data filter 稳定，我们认为这是因为每次更新时的数据量不同，导致梯度不稳定。

Model Size：尽管目前一些工作，比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现，但我们在多模态推理场景下，难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。

我们的期望

我们开源了全套数据（包括自助收集的高质量多模态 K12 数据集）、代码和模型，并发布了详细的技术报告，涵盖所有复现过程及未成功的尝试。希望我们的工作能帮助社区共同推进多模态推理的发展！我们同样在持续推进模型训练，请继续关注！

产业多模态学科推理模型MM-Eureka