
为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模型
三个要点
✔️ 提出了 CoMemo,以解决 LVLM 中图像信息忽略和位置编码的问题
✔️ 在上下文路径和内存路径的双重结构中进行图像处理,以同时保留和利用视觉信息
✔️ 新的 RoPE-DHR 方法即使在高分辨率图像中也能保留二维结构。新的 RoPE-DHR 方法即使在高分辨率图像中也能保持二维结构,同时最大限度地减少位置信息的衰减。
CoMemo: LVLMs Need Image Context with Image Memory
written by Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
(Submitted on 6 Jun 2025)
Comments: ICML 2025
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
LVLM近年来备受关注。这些模型将图像信息纳入语言模型,通过结合图像和语言实现高级推理。然而,传统方法面临的挑战是图像信息没有得到充分利用。特别是 "中间丢失 "现象,即 "图像中间信息 "在长语境中容易被模型忽略,以及位置信息准确性的损失一直是问题所在。
为了解决这些问题,本文提出了一种名为 "CoMemo "的新架构,它在传统的自回归图像处理基础上,引入了辅助 "记忆路径",使模型在保留图像上下文信息的同时,能持续关注图像内容。该系统能使模型持续关注图像内容,同时保留图像的上下文信息。新设计的 RoPE-DHR(动态高分辨率旋转位置嵌入)也被用于在保留图像二维结构的同时减少长距离依赖性的削弱。
在各种视觉和语言任务中,CoMemo 的表现都优于之前的模型,尤其是在图像上下文理解、长句生成和多图像综合推理方面。
建议的方法
CoMemo 设计的核心是通过双重路径进行图像处理:上下文路径和记忆路径。
上下文路径是将图像标记与文本标记联系起来,并以传统的自回归(自回归)方式进行处理的路径。与此相反,记忆路径的设计是通过交叉关注来处理图像标记,允许从文本方面灵活地引用图像信息。这种双重结构大大改善了以前的模型中容易出现的 "忽略图像信息 "和 "不注意中间位置 "的问题。
CoMemo 还引入了一种名为 RoPE-DHR 的新位置编码方法,它将图像分为 "缩略图 "和 "高分辨率图块",并对缩略图执行传统的位置编码,同时允许图块继承其缩略图的位置信息。这样既提高了计算效率,又保持了二维位置关系。
此外,训练方法也很巧妙,采用了三阶段学习策略,让学习分阶段进行。首先调整记忆路径和投影仪的参数,然后固定门参数以平衡路径,最后对所有参数进行微调。这就确保了模型不会偏向于某一特定路径,而是以平衡的方式利用两种路径。
实验
本文在七个不同的视觉和语言基准上进行了实验,以测试 CoMemo 的有效性。
其中包括图像标题生成、长句生成、多图像推理、长文本理解、数学推理、一般 VQA(视觉问题解答)和 OCR 相关任务。所使用的模型均为 2B 参数尺度,并具有统一的训练条件。
结果表明,与之前的 LVLM-S 和 LVLM-X 架构相比,CoMemo 的性能有了显著提高:在图像标题生成任务中提高了 17.2%,在长句生成任务中提高了 7.0%,在长语境理解任务中提高了 5.6%。特别是在 MM-NIAH 和 MileBench 等从图像和文本中提取重要信息的任务中,与容易丢失中间信息的传统方法相比,CoMemo 能够很好地保留和利用中间信息。
元件消融实验还定量验证了 RoPE-DHR 和 Memory Path 的存在与否对性能的影响,并揭示了这两个元件的重要性。在计算效率方面,虽然推理时间略有增加,但结果完全在实用范围内,显示出较高的整体实用性。
与本文相关的类别