マルチモーダルなGPT-4とLLaVAによる高度な画像理解と自然言語対話の統合

Computer Vision 2024年01月09日

3つの要点
✔️ 言語のみのGPT-4を使用した視覚的命令チューニングが有効であることが実証されています。
✔️ 自動パイプラインを導入し、言語と画像の指示に従うデータを生成する方法を提示しています。
✔️ 今後は、データスケールの拡大と大規模な画像テキストデータでの事前トレーニングや、チャットアシスタントの向上とビジョンモデルの統合による新たな機能の可能性の探求がされます。

Visual Instruction Tuning
written by Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
(Submitted on 17 Apr 2023 (this version), latest version 11 Dec 2023 (v2))
Comments: project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、GPT-4を使用してマルチモーダルな言語イメージ命令追従データを生成し、それを活用して視覚と言語理解を統合した大規模モデル「LLaVA」を提案しています。初期実験では、LLaVAが優れたマルチモードチャット機能を示し、合成マルチモード命令においてGPT-4を上回る性能を達成しました。 Science QAにおいて微調整すると、LLaVAとGPT-4の相乗効果で新たな最先端の精度が達成されました。

導入

この論文は、視覚と言語の両方を組み合わせた人工知能アシスタントの開発に焦点を当てています。従来のモデルでは各タスクが独立して解決され、言語は画像コンテンツを説明するだけでした。しかし、大規模言語モデル（LLM）の進化により、言語が多岐にわたるタスクを指示できるようになりました。この論文では、視覚命令チューニングと呼ばれる新しい手法を紹介し、視覚データを生成して大規模マルチモーダルモデル（LMM）を構築します。生成データを使用してLMMを微調整し、汎用の命令追従ビジュアルエージェントを構築します。 GPT-4を使用してScience QAマルチモーダル推論データセットで優れたパフォーマンスを達成します。

GPT 支援による視覚的指示データの生成

コミュニティでは、画像とテキストの公開データが急増していますが、マルチモーダルな指示データは限られています。この課題に対処するために、ChatGPT/GPT-4を利用して広範な画像ペアデータからマルチモーダルな命令追従データを収集する提案がなされています。

GPT-4を使用し、画像とテキストのペアに基づく自然な質問を生成するためのアプローチが提案されています。通常の拡張方法では多様性と深い推論が欠けているため、言語のみのGPT-4やChatGPTを教師として活用して、視覚的な指示に従うデータを生成する方法が提案されました。シンボリック表現を使用して画像をエンコードし、異なる種類の命令追従データを生成します。これにより、GPT-4は高品質な命令追従データを提供でき、通常のデータ拡張よりも優れた結果が得られることが示唆されています。

視覚的指示のチューニング

アーキテクチャ

主な目標は、事前トレーニングされた LLM とビジュアルモデルの両方の機能を効果的に活用することです。ネットワークアーキテクチャを図 1 に示します。

LaMA（Large Language Model for Instructions Following）は、パラメータφでパラメータ化されたLLM（Large Language Model）f_φ(・)として採用されています。これは、オープンソースの言語のみの命令チューニング作業での実証済みの効果があるためです。視覚特徴Z_v=g(X_v)を提供するViT-L/14を考慮しており、画像の特徴を言語埋め込みトークンH_qに変換するための訓練可能な射影行列Wを使用します。これにより、画像と言語のモデルが同じ次元を持つようになります。

したがって、画像から得られる視覚トークンHvの一連のプロセスは軽量かつ効率的で、データ中心の実験を素早く繰り返すことができます。他のモデルとしては、FlamingoのゲートクロスアテンションやBLIP-2のQ-former、またはSAMがオブジェクトレベルの機能を提供します。今後の研究では、より効果的で洗練されたアーキテクチャ設計の探索が残されています。

トレーニング

各画像に対して、複数のターンからなる会話データ(X¹_q、X¹_a、...、X^T_q、X^T_a)を生成します。ここで、Tは総ターン数を表します。アシスタントの全ての回答をまとめ、各ターンでの指示をX^t_instructとして整理します。この手法により、表2に示す統一フォーマットのマルチモーダル命令が得られます。元の自己回帰トレーニング目標を使用し、LLMの命令チューニングを予測トークンに対して実行します。具体的には、長さLのシーケンスにおいて、ターゲット回答X_aを生成する確率を計算します。モデルのトレーニングでは、2段階の命令調整手順を考えます。ここでθはトレーニング可能なパラメーターであり、X_instruct < iおよびX_a < iはそれぞれ、現在の予測トークンx_iの前の全てのターンにおける命令トークンと回答トークンです。条件文においては、画像が全ての回答に対して根拠があることを強調するためにXvを明示的に追加し、読みやすさ向上のためにXsystem-messageと以前の全ての<STOP>をスキップします。

また、この手法は、2つのステージで構成されます。第一段階では、CC3Mから595Kの画像とテキストのペアを選別し、シングルターンの会話として扱えるように簡単な拡張方法を使用して命令に従うデータに変換します。ここで、画像に対してランダムにサンプリングされた質問を命令として使用し、オリジナルのキャプションを予想回答としてトレーニングします。この段階では、ビジュアルエンコーダーとLLMの重みを固定し、射影行列Wのみを使用して尤度を最大化します。

第二段階では、ビジュアルエンコーダーの重みを固定し、投影レイヤーとLLaVAのLLMの重みを更新します。つまり、トレーニング可能なパラメータは射影行列Wとφです。チャットボットのトレーニングでは、収集した言語画像命令追跡データを使用し、マルチターンとシングルターンの応答を均等にサンプリングします。ScienceQAベンチマークでは、質問には自然言語または画像の形式でコンテキストが提供され、アシスタントは推論プロセスを自然言語で提供し、複数の選択肢から答えを選択します。

実験

マルチモーダルチャットボット

研究者は、LLaVAと呼ばれる新しいマルチモーダルAIモデルを開発し、その画像理解と会話能力を示すチャットボットデモを構築しました。LLaVAはわずか80,000の画像でトレーニングされ、GPT-4と比較して類似した推論結果を示しました。これは、LLaVAが指示に従いながらシーンを理解し、適切に応答できることを示唆しています。他のモデル（BLIP-2やOpenFlamingo）は画像の説明に焦点を当てており、指示に対する回答が制限されています。また、定量的な評価では、COCO検証セットから選択した画像に対して、LLaVAとGPT-4の質問応答能力を比較し、GPT-4の評価からLLaVAの性能を理解する試みが行われています。具体的な結果は表3に示されています。

命令の調整により、ユーザーの指示に従うモデルの能力が50ポイント以上向上しました。詳細な説明や複雑な推論の質問を追加することで、モデルの総合的な性能が7ポイント向上しました。会話の質問に対するモデルのパフォーマンスも向上し、推論能力が会話能力を補完することが示唆されました。最終的に、3つのデータタイプを組み合わせることで、最高のパフォーマンスである85.1%が達成されました。この評価プロトコルは、大規模なマルチモーダルモデルの機能を包括的に評価し理解するための基準となります。

研究では、新しいアダプターを使用したLLaVAがScienceQAデータセットで90.92%の高い精度を達成し、GPT-4は82.69%の結果を示しました。GPT-4は画像やプロットが不足する場合に失敗する傾向がありますが、LLaVAとGPT-4を組み合わせることで90.97%の高い精度を維持できました。さらに、GPT-4を再度プロンプトして独自の回答を生成するスキームが提案され、これにより新たな最高精度である92.53%が達成されました。研究はLLMを活用したモデルアンサンブルの新たな可能性を示唆しています。異なる条件でのモデルの性能比較から、科学的QAタスクにおける適切なモデル構成についての理解が深まりました。

結論

この論文では、GPT-4の言語モデルを使用した視覚的命令チューニングの有効性が示されています。新しいデータ生成パイプラインを導入し、言語と画像の指示に従うデータを作成し、それに基づいてマルチモーダルモデルLLaVAをトレーニングしました。微調整により、ScienceQAでは新しいSoTAの精度が達成され、マルチモーダルチャットデータでは優れたビジュアルチャットエクスペリエンスが実現されました。将来の展望として、より大きなデータスケールでの事前トレーニングや、他のビジョンモデルとの接続を検討しています。これにより、新しい機能の有効化やパフォーマンスの向上が期待されます。

私の意見としては、この研究がマルチモーダルAIの進展に寄与していることは明らかです。特に、言語と視覚の統合においてGPT-4とLLaVAの組み合わせが有望な結果を示しており、今後の大規模なデータとモデルの組み合わせによる研究がますます興味深くなるでしょう。