MMR1：多模态推理模型，利用基于奖励方差的采样稳定强化学习

04/10/2025

三个要点
✔️ MMR1 使用具有奖励方差的 "方差感知采样"（Variance-Aware Sampling）来实现稳定的强化学习
✔️发布了约 160 万个 CoT 数据和 1.5 万个 RL 数据，用于可重复性和开发
✔️ 在数学和逻辑推理基准测试中表现优于现有模型，显示出效率和通用性证明了效率和通用性

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
written by Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
(Submitted on 25 Sep 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

本文提出了一种新的学习策略--方差感知采样（VAS），以提高大规模多模态推理模型的性能。

近年来，大规模语言和多模态模型在涉及数学和逻辑的复杂任务方面取得了进展。
然而，强化学习的典型方法--组相对策略优化（GRPO）存在一个问题，即当奖励方差减小时，梯度消失，削弱了优化信号，使学习不稳定。
此外，缺乏高质量、大规模的 "思维链 "数据，也阻碍了研究的可重复性和进展。

因此，本研究做出了三项贡献：(1) 增加奖励方差并稳定学习的数据选择方法 VAS；(2) 包含约 160 万条长 CoT 数据和约 15 000 对 QA 对的 RL 大型数据集；(3) 发布多尺度多模态推理模型。

理论分析表明，奖励方差保证了梯度更新的下限，并证明 VAS 可以作为这方面的实用方法。
此外，已发布的代码和模型套件是一种资源，为研究界提供了标准基线。

建议的方法

所提出的 VAS 方法旨在克服 GRPO 学习过程中的 "梯度损失"。

其基本思想是，奖励方差较大的样本更有利于学习，并产生更强的梯度信号。
为此，VAS 会计算每个样本的 "方差促进得分"（VPS），并根据该值选择训练数据。

VPS 由两部分组成。
一个是 "结果方差分"（OVS），它对正确和错误回答比例均衡的任务给予较高评价。
另一个是轨迹多样性得分（TDS），优先考虑产生各种推理路径的任务。
这使得训练能够纳入对模型更有参考价值的样本，而不是单调和可预测的样本。

此外，VAS 的设计还与随机抽样相结合，在确保数据覆盖面的同时促进奖励差异。
从理论上讲，VAS 是基于 "方差进步定理"（Variance-Progress Theorem），该定理保证了奖励方差是梯度的下限，这一机制提高了学习的稳定性和效率。

实验

实验中使用了几个侧重于数学和逻辑推理的基准（MathVerse、MathVista、MathVision、LogicVista 和 ChartQA）。
实验采用了基于 Qwen2.5-VL 系列的 3B 和 7B 模型作为模型，并选择了通用模型（如 InternVL、LLaVA-OV）和特定推理模型（如 VL-Cogito、R1-VL、MM-Eureka）进行比较。

结果，MMR1-7B 获得了 58.4 的平均分，超过了类似规模的面向推理的模型。
特别是在复杂推理任务（如 MathVerse 和 LogicVista）上，MMR1-7B 取得了明显的进步，这表明 VAS 对学习的稳定性和性能的提高都起到了促进作用。

此外，3B 模型也取得了与几个 7B 模型相当的结果，并且在资源限制条件下效率很高。
此外，消融实验表明，冷启动的初始化、GRPO 的强化学习和 VAS 的稳定化相辅相成，有助于提高最终性能。
这有力地证明了所提方法的有效性和多功能性。