赶上最新的AI论文

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

大型语言模型

三个要点
✔️ 引入路由视觉专家和跨模态桥接模块,独立有效地处理视觉和语言信息。
✔️ 混合图像标记化和离散自回归建模提高了视觉数据的学习稳定性。

✔️ 在 VQA 和跨模态基准测试中取得高性能,显示出与以往模型相当或更好的结果。

Libra: Building Decoupled Vision System on Large Language Models
written by Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu
(Submitted on 16 May 2024)
Comments: 
ICML2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

近年来,由于大规模语言模型(LLM) 的快速发展,多模态人工智能(即整合视觉和语言的模型)得到了积极的研究。其中,结合视觉和语言信息的系统 已被广泛应用于图像标题生成、视觉问题解答(VQA)和机器人决策等领域。然而,以往的研究已经指出了 视觉信息处理和与 LLM 集成方式 中存在的问题,从而导致信息独立性的丧失。

本文提出了一个名为"天秤座 " 的新原型模型来应对这一挑战。该模型的主要特点是将视觉系统和语言模型设计为解耦(Decoupled),从而在保持两者独特性的同时,实现更有效的跨模态理解

大多数传统模型旨在以综合方式处理视觉和文本信息。然而,这种方法往往会导致视觉信息未得到充分利用的 问题,并限制了性能,尤其是在使用高分辨率图像和视频的任务中。视觉专家 "可 独立处理视觉信息,以确保视觉系统与 LLM 之间的有效协调。

此外,还采用了离散自回归模型(Discrete Auto-Regressive Modelling来稳定 视觉数据的表示 ,从而更有效地学习视觉数据。与传统的多模态大规模语言模型(MLLM)相比,这种方法能以更少的数据实现更高的性能。

实验结果表明,尽管 使用了 5000 万个训练数据(相比之下,传统模型使用的 训练数据超过 10 亿个),Libra 仍然取得了与现有最先进的 MLLM 不相上下的性能。与传统方法相比,Libra 从另一个角度为多模态学习的设计做出了重大贡献。

相关研究

这项研究面临的挑战主要在于 如何整合视觉系统和语言模型 。主要有两种方法

  1. 整合视觉和语言的统一模型。

    • 例如 Unified-IO、Flamingo。
    • 通过整合语言模型和视觉系统进行学习。
    • 挑战:视觉信息失去独立性,语言知识缺乏规模和平衡性
  2. 先学习 LLM,再整合视觉信息。

    • 例如:BLIP-2、Emu、CogVLM。
    • 首先加强语言模型,然后整合视觉信息的方法。
    • 问题:视觉信息表达不充分,导致信息失衡

本文提出了一种 "视觉和语言分别学习 "的方法,以克服这两种方法的缺点。

建议方法

天秤座的设计由三个主要元素组成

1. 路由视觉专家

Libra 引入了 路由视觉专家(Routed Visual Expert ),允许独立处理视觉信息。该机制为 LLM 的每一层添加了一个 "视觉专用专家模块",并拥有自己的注意力机制(Attention)。

如图 1 所示,通过这种设计、

  • 视觉专用参数空间,不同于语言模型 (LLaMA2)
  • 跨模态处理由专门的 "桥接模块"(跨模态桥接器)控制。

这样做可以保持视觉信息的独立性。


2. 离散自动回归模型

传统的视觉建模通常使用连续图像表示法。然而,这种方法存在标签空间无限大的问题,导致学习过程不稳定。

Libra 通过将视觉信息 转化为 "离散标记 " 来解决这一问题。该方法将每幅图像转换成 "预测下一个标记的形式",以提高学习的稳定性 (见图 2)。


3. 混合图像标记化

视觉信息的谨慎化会导致信息丢失。因此,在天秤座

  • 连续视觉信号
  • 离散图像令牌

引入了一种混合图像标记化策略(见图 3)。

这种方法可确保最大限度地保留图像信息,同时利用CLIP 预先训练的知识

实验结果

在以下多模式基准中对 Libra 进行了评估

  1. VQA(可视化问题解答)

    • 查看图像和回答问题的任务
    • Libra 仅用 5000 万个数据就取得了与传统 Qwen-VL 和 LLaVA 1.5 相当的分数(见表 1)。
  2. 图片说明。

    • 任务是查看图像并生成描述。
    • 与 GPT-4V 和 PaLM-E 相比,Flickr30K 和 COCO 数据集的准确率更高(见表 2)。
  3. 多模态视觉感知(MVP)。

    • 衡量 MLLM 能否准确理解视觉信息。
    • 由于视觉信息的独立性,天秤座的准确率高于其他模型(见图 4)。

结论

本研究提出了一种新的 MLLM 模型 "天秤座" ,它可以独立处理视觉信息
它克服了传统的 "综合视觉和语言学习 "所面临的挑战、

  • 路由视觉专家
  • 离散自回归模型
  • 混合图像标记化

通过结合三种方法,在保持视觉信息独特性的同时,实现了高性能。

未来,它有望用于学习更多样化的数据集 ,并应用于视频数据 。我个人认为,在医疗领域和自动驾驶等需要实时视觉识别的情况下,它的应用前景非常广阔。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们