[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

大型语言模型 27/02/2025

三个要点
✔️ 引入路由视觉专家和跨模态桥接模块，独立有效地处理视觉和语言信息。
✔️ 混合图像标记化和离散自回归建模提高了视觉数据的学习稳定性。
✔️ 在 VQA 和跨模态基准测试中取得高性能，显示出与以往模型相当或更好的结果。

Libra: Building Decoupled Vision System on Large Language Models
written by Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu
(Submitted on 16 May 2024)
Comments: ICML2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

近年来，由于大规模语言模型（LLM） 的快速发展，多模态人工智能（即整合视觉和语言的模型）得到了积极的研究。其中，结合视觉和语言信息的系统 已被广泛应用于图像标题生成、视觉问题解答（VQA）和机器人决策等领域。然而，以往的研究已经指出了 视觉信息处理和与 LLM 集成方式 中存在的问题，从而导致信息独立性的丧失。

本文提出了一个名为"天秤座 " 的新原型模型来应对这一挑战。该模型的主要特点是将视觉系统和语言模型设计为解耦（Decoupled），从而在保持两者独特性的同时，实现更有效的跨模态理解 。

大多数传统模型旨在以综合方式处理视觉和文本信息。然而，这种方法往往会导致视觉信息未得到充分利用的 问题，并限制了性能，尤其是在使用高分辨率图像和视频的任务中。视觉专家 "可 独立处理视觉信息，以确保视觉系统与 LLM 之间的有效协调。

此外，还采用了离散自回归模型（Discrete Auto-Regressive Modelling ）来稳定 视觉数据的表示 ，从而更有效地学习视觉数据。与传统的多模态大规模语言模型（MLLM）相比，这种方法能以更少的数据实现更高的性能。

实验结果表明，尽管只使用了 5000 万个训练数据（相比之下，传统模型使用的 训练数据超过 10 亿个），Libra 仍然取得了与现有最先进的 MLLM 不相上下的性能。与传统方法相比，Libra 从另一个角度为多模态学习的设计做出了重大贡献。

建议方法

天秤座的设计由三个主要元素组成

1. 路由视觉专家

Libra 引入了 路由视觉专家（Routed Visual Expert ），允许独立处理视觉信息。该机制为 LLM 的每一层添加了一个 "视觉专用专家模块"，并拥有自己的注意力机制（Attention）。

如图 1 所示，通过这种设计、

视觉专用参数空间，不同于语言模型 (LLaMA2)
跨模态处理由专门的 "桥接模块"（跨模态桥接器）控制。

这样做可以保持视觉信息的独立性。

2. 离散自动回归模型

传统的视觉建模通常使用连续图像表示法。然而，这种方法存在标签空间无限大的问题，导致学习过程不稳定。

Libra 通过将视觉信息 转化为 "离散标记 " 来解决这一问题。该方法将每幅图像转换成 "预测下一个标记的形式"，以提高学习的稳定性 （见图 2）。

3. 混合图像标记化

视觉信息的谨慎化会导致信息丢失。因此，在天秤座

连续视觉信号
离散图像令牌

引入了一种混合图像标记化策略（见图 3）。

这种方法可确保最大限度地保留图像信息，同时利用CLIP 预先训练的知识 。

实验结果

在以下多模式基准中对 Libra 进行了评估

VQA（可视化问题解答）
- 查看图像和回答问题的任务
- Libra 仅用 5000 万个数据就取得了与传统 Qwen-VL 和 LLaVA 1.5 相当的分数（见表 1）。
图片说明。
- 任务是查看图像并生成描述。
- 与 GPT-4V 和 PaLM-E 相比，Flickr30K 和 COCO 数据集的准确率更高（见表 2）。
多模态视觉感知（MVP）。
- 衡量 MLLM 能否准确理解视觉信息。
- 由于视觉信息的独立性，天秤座的准确率高于其他模型（见图 4）。