![[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2025/libra.png)
[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计
三个要点
✔️ 引入路由视觉专家和跨模态桥接模块,独立有效地处理视觉和语言信息。
✔️ 混合图像标记化和离散自回归建模提高了视觉数据的学习稳定性。
✔️ 在 VQA 和跨模态基准测试中取得高性能,显示出与以往模型相当或更好的结果。
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,由于大规模语言模型(LLM) 的快速发展,多模态人工智能(即整合视觉和语言的模型)得到了积极的研究。其中,结合视觉和语言信息的系统 已被广泛应用于图像标题生成、视觉问题解答(VQA)和机器人决策等领域。然而,以往的研究已经指出了 视觉信息处理和与 LLM 集成方式 中存在的问题,从而导致信息独立性的丧失。
本文提出了一个名为"天秤座 " 的新原型模型来应对这一挑战。该模型的主要特点是将视觉系统和语言模型设计为解耦(Decoupled),从而在保持两者独特性的同时,实现更有效的跨模态理解 。
大多数传统模型旨在以综合方式处理视觉和文本信息。然而,这种方法往往会导致视觉信息未得到充分利用的 问题,并限制了性能,尤其是在使用高分辨率图像和视频的任务中。视觉专家 "可 独立处理视觉信息,以确保视觉系统与 LLM 之间的有效协调。
此外,还采用了离散自回归模型(Discrete Auto-Regressive Modelling )来稳定 视觉数据的表示 ,从而更有效地学习视觉数据。与传统的多模态大规模语言模型(MLLM)相比,这种方法能以更少的数据实现更高的性能。
实验结果表明,尽管 只使用了 5000 万个训练数据(相比之下,传统模型使用的 训练数据超过 10 亿个),Libra 仍然取得了与现有最先进的 MLLM 不相上下的性能。与传统方法相比,Libra 从另一个角度为多模态学习的设计做出了重大贡献。
相关研究
这项研究面临的挑战主要在于 如何整合视觉系统和语言模型 。主要有两种方法
-
整合视觉和语言的统一模型。
- 例如 Unified-IO、Flamingo。
- 通过整合语言模型和视觉系统进行学习。
- 挑战:视觉信息失去独立性,语言知识缺乏规模和平衡性
-
先学习 LLM,再整合视觉信息。
- 例如:BLIP-2、Emu、CogVLM。
- 首先加强语言模型,然后整合视觉信息的方法。
- 问题:视觉信息表达不充分,导致信息失衡
本文提出了一种 "视觉和语言分别学习 "的方法,以克服这两种方法的缺点。
建议方法
天秤座的设计由三个主要元素组成
1. 路由视觉专家
Libra 引入了 路由视觉专家(Routed Visual Expert ),允许独立处理视觉信息。该机制为 LLM 的每一层添加了一个 "视觉专用专家模块",并拥有自己的注意力机制(Attention)。
如图 1 所示,通过这种设计、
- 视觉专用参数空间,不同于语言模型 (LLaMA2)
- 跨模态处理由专门的 "桥接模块"(跨模态桥接器)控制。
这样做可以保持视觉信息的独立性。
2. 离散自动回归模型
传统的视觉建模通常使用连续图像表示法。然而,这种方法存在标签空间无限大的问题,导致学习过程不稳定。
Libra 通过将视觉信息 转化为 "离散标记 " 来解决这一问题。该方法将每幅图像转换成 "预测下一个标记的形式",以提高学习的稳定性 (见图 2)。
3. 混合图像标记化
视觉信息的谨慎化会导致信息丢失。因此,在天秤座
- 连续视觉信号
- 离散图像令牌
引入了一种混合图像标记化策略(见图 3)。
这种方法可确保最大限度地保留图像信息,同时利用CLIP 预先训练的知识 。
实验结果
在以下多模式基准中对 Libra 进行了评估
-
VQA(可视化问题解答)
- 查看图像和回答问题的任务
- Libra 仅用 5000 万个数据就取得了与传统 Qwen-VL 和 LLaVA 1.5 相当的分数(见表 1)。
-
图片说明。
- 任务是查看图像并生成描述。
- 与 GPT-4V 和 PaLM-E 相比,Flickr30K 和 COCO 数据集的准确率更高(见表 2)。
-
多模态视觉感知(MVP)。
- 衡量 MLLM 能否准确理解视觉信息。
- 由于视觉信息的独立性,天秤座的准确率高于其他模型(见图 4)。
结论
本研究提出了一种新的 MLLM 模型 "天秤座" ,它可以独立处理视觉信息 。
它克服了传统的 "综合视觉和语言学习 "所面临的挑战、
- 路由视觉专家
- 离散自回归模型
- 混合图像标记化
通过结合三种方法,在保持视觉信息独特性的同时,实现了高性能。
未来,它有望用于学习更多样化的数据集 ,并应用于视频数据 。我个人认为,在医疗领域和自动驾驶等需要实时视觉识别的情况下,它的应用前景非常广阔。
与本文相关的类别