最新AI論文をキャッチアップ

【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多モーダル設計

【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多モーダル設計

Large language models

3つの要点
✔️ ルーティング型ビジュアルエキスパートとクロスモーダル橋渡しモジュールを導入し、視覚情報と言語情報を独立かつ効果的に処理。
✔️ ハイブリッド画像トークン化と離散的オートリグレッシブモデリングにより、視覚データの学習安定性を向上。

✔️ VQAやクロスモーダルベンチマークで高い性能を達成し、従来モデルに匹敵またはそれ以上の結果を示す。

Libra: Building Decoupled Vision System on Large Language Models
written by Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu
(Submitted on 16 May 2024)
Comments: 
ICML2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

近年、大規模言語モデル(LLM) の急速な進化により、マルチモーダルAI(視覚と言語を統合したモデル)が盛んに研究されています。特に、視覚情報と言語情報を組み合わせたシステム は、画像キャプション生成、視覚的質問応答(VQA)、ロボットの意思決定など、様々な応用分野で活用されています。しかし、これまでの研究では 視覚情報の処理とLLMの統合方法 に課題があり、情報の独立性が損なわれる問題が指摘されていました。

本論文では、この課題に対応するために、「Libra」 という新しいプロトタイプモデルを提案しています。このモデルの最大の特徴は、視覚システムと言語モデルを分離(Decoupled)して設計することで、両者の独自性を維持しながら、より効果的なクロスモーダル理解を実現する ことです。

従来のモデルの多くは、視覚情報とテキスト情報を統合的に処理する設計が主流でした。しかし、この方法では視覚情報が十分に活用されない 問題が発生し、特に高解像度の画像や映像を用いたタスクにおいて性能が制限される傾向がありました。Libraは、この問題を解決するために、視覚情報を独立して処理する「ルーティング型視覚エキスパート(Routed Visual Expert)」 を導入し、視覚システムとLLMの効果的な連携を実現しました。

さらに、視覚データの表現を安定化させるために「離散オートリグレッシブモデリング(Discrete Auto-Regressive Modeling)」を採用 し、視覚データの学習をより効果的に行えるようにしました。これにより、従来のMLLM(マルチモーダル大規模言語モデル)に比べて、少ないデータで高い性能を発揮することが可能となりました。

実験結果では、Libraは わずか5000万件の学習データ(従来のモデルでは10億件以上)にも関わらず、既存の最先端MLLMに匹敵する性能を達成しました。この成果は、従来のアプローチとは異なる視点でマルチモーダル学習を設計した点で、大きな貢献となります。

関連研究

 本研究が取り組む課題は、主に 視覚システムと言語モデルの統合方法 にあります。これまでのアプローチには大きく分けて以下の2種類がありました。

  1. 視覚と言語を統合した統一モデル

    • 例:Unified-IO, Flamingo
    • 言語モデルと視覚システムを一体化して学習
    • 課題:視覚情報の独立性が失われ、言語知識のスケールとバランスが取れない
  2. LLMを事前学習し、後から視覚情報を統合

    • 例:BLIP-2, Emu, CogVLM
    • まず言語モデルを強化し、その後に視覚情報を統合するアプローチ
    • 課題:視覚情報が十分に表現されず、情報の不均衡が発生する

本論文は、この2つのアプローチの欠点を克服するために、「視覚と言語を分離して学習する」方式を提案しました。

提案手法

Libraの設計は、大きく3つの要素で構成されています。

1. ルーティング型視覚エキスパート(Routed Visual Expert)

Libraでは、視覚情報を独立して処理できるように ルーティング型視覚エキスパート(Routed Visual Expert) を導入しました。この仕組みでは、LLMの各層に「視覚専用のエキスパートモジュール」を追加し、独自の注意機構(Attention)を持たせています。

図1 に示されているように、この設計により、

  • 言語モデル(LLaMA2)とは異なる視覚専用のパラメータ空間を確保
  • クロスモーダル処理を専用の「ブリッジモジュール(Cross-Modal Bridge)」で制御

することで、視覚情報の独立性を維持しています。


2. 離散オートリグレッシブモデリング(Discrete Auto-Regressive Modeling)

従来の視覚モデリングでは、連続的な画像表現をそのまま利用することが一般的でした。しかし、この方法ではラベル空間が無限大になり、学習が不安定になるという課題がありました。

Libraでは、視覚情報を 「離散的なトークン」に変換 することで、この問題を解決しました。この手法では、各画像を「次のトークンを予測する形」に変換し、学習の安定性を向上 させています(図2参照)。


3. ハイブリッド画像トークン化(Hybrid Image Tokenization)

視覚情報を離散化すると、情報損失が発生する可能性があります。そのため、Libraでは、

  • 連続的な視覚信号(Contiguous Visual Signals)
  • 離散的な視覚トークン(Discrete Image Tokens)

を組み合わせたハイブリッドな画像トークン化戦略を導入しました(図3参照)。

この手法により、CLIPの事前学習済み知識 を活用しつつ、画像の情報量を最大限保持できるようになっています。

実験結果

Libraは、以下のマルチモーダルベンチマークで評価されました。

  1. VQA(Visual Question Answering)

    • 画像を見て質問に答えるタスク
    • Libraは、わずか5000万件のデータで、従来のQwen-VLやLLaVA1.5に匹敵するスコアを達成(表1参照)
  2. 画像キャプション(Image Captioning)

    • 画像を見て説明文を生成するタスク
    • Flickr30KやCOCOのデータセットで、GPT-4VやPaLM-Eと比較して高い精度を達成(表2参照)
  3. MMVP(Multimodal Visual Perception)

    • MLLMが視覚情報をどれだけ正確に理解できるかを測る指標
    • Libraは、視覚情報の独立性を確保したことで、他のモデルよりも高い精度を示した(図4参照)

結論

本研究では、視覚情報を独立して処理できる新しいMLLMモデル「Libra」 を提案しました。
従来の「視覚と言語の統合型学習」の課題を克服し、

  • ルーティング型視覚エキスパート
  • 離散オートリグレッシブモデリング
  • ハイブリッド画像トークン化

の3つの手法を組み合わせることで、視覚情報の独自性を維持しながら、高い性能を達成しました。

今後は、より多様なデータセットでの学習 や、映像データへの応用 などが期待されます。個人的には、医療分野や自動運転など、リアルタイムでの視覚認識が求められる場面での活用が非常に有望だと感じました。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする