
画像を忘れないAIへ、CoMemoが切り拓く次世代視覚と言語モデル
3つの要点
✔️ LVLMにおける画像情報の軽視と位置エンコーディングの課題を解消するため、CoMemoを提案
✔️ 画像処理をContext PathとMemory Pathの二重構造で行い、視覚情報の保持と活用を両立
✔️ 新手法RoPE-DHRにより、高解像度画像でも2次元構造を維持しつつ位置情報の劣化を抑制
CoMemo: LVLMs Need Image Context with Image Memory
written by Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
(Submitted on 6 Jun 2025)
Comments: ICML 2025
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
近年、LVLMが注目を集めています。これらのモデルは、画像情報を言語モデルに取り込むことで、画像と言語を組み合わせた高度な推論を可能にします。しかし、従来のアプローチには、画像情報が十分に活用されないという課題があります。特に、長い文脈の中では「画像の中間情報」がモデルに無視されやすくなる「Lost in the middle」現象や、位置情報の精度低下が問題となっていました。
この課題を解決するために、本論文では「CoMemo」と呼ばれる新しいアーキテクチャを提案。CoMemoは、従来の自己回帰的な画像処理に加え、補助的な「記憶経路(memory path)」を導入することで、画像の文脈情報を保持しながら、モデルが画像内容に継続的に注意を向ける仕組みを実現しています。また、新たに設計されたRoPE-DHR(Rotary Position Embedding for Dynamic High Resolution)によって、画像の二次元構造を保ちながら、長距離依存性の弱まりを軽減することにも成功したとのこと。
様々な視覚と言語タスクにおいて、CoMemoは従来のモデルよりも高い性能を示し、画像の文脈理解や長文生成、複数画像の統合推論において特に優れた結果を示しました。
提案手法
CoMemoの設計の核となるのは、「Context Path(文脈経路)」と「Memory Path(記憶経路)」の二重経路による画像処理です。
Context Pathは、画像トークンをテキストトークンと連結し、従来通りの自己回帰的(autoregressive)な処理を行うルート。これに対して、Memory Pathは、画像トークンをクロスアテンションによって処理し、テキスト側から画像情報を柔軟に参照できるように設計されています。この二重構造によって、従来モデルで起きやすかった「画像情報の軽視」や「中間位置の注意不足」の問題が大幅に改善されます。
また、CoMemoではRoPE-DHRという新しい位置エンコーディング方式を導入。RoPE-DHRは、画像を「サムネイル」と「高解像度タイル」に分け、サムネイルに対しては従来通りの位置エンコーディングを行い、タイルにはそのサムネイルの位置情報を継承させることで、2次元的な位置関係を保ちながら計算効率を高めています。
さらに、トレーニング手法にも工夫があり、段階的に学習させる3ステージ学習戦略を採用しています。まずは記憶経路とプロジェクターのパラメータを調整し、次にゲートパラメータを固定して経路のバランスをとり、最後にすべてのパラメータを微調整します。これにより、モデルが特定の経路に偏らず、両経路をバランスよく活用できるようになるとのこと。
実験
論文では、CoMemoの有効性を検証するため、視覚と言語を組み合わせた7種類のベンチマークにおいて実験を行いました。
これらには、画像キャプション生成、長文生成、複数画像推論、長文脈理解、数学的推論、一般的なVQA(視覚質問応答)、およびOCR関連タスクが含まれます。使用されたモデルは、いずれも2Bパラメータ規模で、学習条件も統一されています。
その結果、CoMemoは画像キャプション生成タスクにおいて+17.2%、長文生成で+7.0%、長文脈理解で+5.6%と、従来のLVLM-SおよびLVLM-Xアーキテクチャに比べて大きな性能向上を示しました。特に、MM-NIAHやMileBenchなど、画像・テキストの中から重要情報を抽出するタスクでは、中間の情報が失われやすい従来手法に対し、CoMemoは中間情報をしっかりと保持・活用できていました。
また、構成要素のアブレーション実験によって、RoPE-DHRやMemory Pathの有無が性能に与える影響も定量的に検証され、両要素が重要であることが明らかに。計算効率面でも、若干の推論時間の増加はあるものの、十分実用的な範囲に収まっており、全体として高い実用性が示されています。
この記事に関するカテゴリー