【VideoAgent】大規模言語モデルをエージェントとして使用した長編ビデオの理解

Computer Vision 2024年06月21日

3つの要点
✔️ VideoAgentは、ビデオ理解プロセスを模倣し、長い視覚入力の処理よりも推論能力を重視します。
✔️ 実験では、複数ラウンドの反復プロセスを通じて情報を効果的に検索・集約することで、長時間ビデオの理解における優れた有効性と効率性を示しています。
✔️ 今後は、モデルの改善と統合、リアルタイム応用への拡張、さまざまな応用分野への適用、そしてユーザーインタフェースの改善などに焦点を当て、VideoAgentのさらなる進化と幅広い応用が期待されます。

VideoAgent: Long-form Video Understanding with Large Language Model as Agent
written by Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
(Submitted on 15 Mar 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Information Retrieval (cs.IR)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

本研究では、VideoAgentという新しいエージェントベースのシステムが導入されました。このシステムは、大規模な言語モデルを中心に採用し、質問に答えるための重要な情報を特定して動画を編集する役割を果たします。また、視覚情報を処理するためのツールとして視覚言語基盤モデルを備えています。VideoAgentは、難しいEgoSchemaおよびNExT-QAベンチマークで評価され、わずか8.4および8.2フレームの平均数のみを使用して、54.1％および71.3％のゼロショット精度を達成しました。

はじめに

長時間のビデオを理解するには、多様な情報を処理し、長いシーケンスを効果的に推論できるモデルが必要です。既存の試みでは、これらの要件すべてに優れるモデルを構築するのが難しいとされています。現在の大規模言語モデルは長いコンテキストの処理に適していますが、視覚情報の処理が不十分です。一方、視覚言語モデルは長い視覚入力を処理するのが難しいとされています。本研究のシステムは、ビデオ理解プロセスを模倣し、長い視覚入力の処理よりも推論能力を重視します。VideoAgentは、既存の手法よりも優れた効果と効率を示し、長編ビデオの理解に大きな進歩をもたらします。

提案手法

1. 初期状態の取得:

最初に、ビデオのコンテキストに慣れさせるために、ビデオから均一にサンプリングされたフレームをLLMに提示します。ビジョン言語モデル（VLM）を使用して視覚情報を言語記述に変換します。この初期状態は、ビデオの内容と意味の概要を記録します。

2. 次のアクションの決定:

現在の状態を考慮して、次のアクションを決定します。2つの可能なオプションがあります。一つは質問に答えることであり、もう一つは新しい情報を検索することです。LLMは質問と既存の情報を検討し、内省を行い、信頼度スコアに基づいて行動を選択します。

3. 新しい観察結果の収集:

新しい情報が必要な場合、LLMはツールを使用して情報を取得します。一部の情報はセグメントレベルで収集され、時間的推論機能を強化します。取得された情報は、現在の状態を更新するための観測として機能します。

4. 現在の状態の更新:

新しい観察結果を考慮して、VLMを使用して各フレームのキャプションを生成し、LLMに要求して次のラウンドの予測を生成します。

この手法は、従来の方法と比較していくつかの利点があります。特に、情報を収集するための適応型選択戦略が関連性の高い情報を見つけ出し、異なる難易度の質問に答えるために必要なコストを最小限に抑えます。

実験

データセットとメトリック

実験では、主にゼロショット理解機能に焦点を当て、2つの主要なデータセットを使用します。1つはEgoSchemaで、もう1つはNExT-QAです。EgoSchemaは自己中心的なビデオからなり、5000の質問から構成されます。NExT-QAには、日常生活の中の物体の相互作用を特集した自然ビデオと48,000の質問が含まれています。

実装の詳細

すべてのビデオを1fpsでデコードし、視覚的記述とフレーム特徴の間のコサイン類似性に基づいて最も関連性の高いフレームを取得します。実験では、EgoSchemaではLaViLa、NExT-QAではCogAgentを使用します。また、GPT-4をLLMとして使用します。

最先端技術との比較

VideoAgentは、EgoSchemaおよびNExT-QAデータセットでSOTAの結果を達成し、以前の方法を大幅に上回りました。例えば、EgoSchemaでは完全なデータセットで54.1％、500質問のサブセットで60.2％の精度を達成しました。

反復フレーム選択の分析

VideoAgentの重要なコンポーネントの1つは反復フレーム選択です。このプロセスは、質問に答えるのに十分な情報を収集するまで、動的に情報を検索して集約します。このプロセスをより深く理解するために、包括的な分析とアブレーション研究を行いました。

基礎モデルのアブレーション

LLM（ラージ言語モデル）: 異なるLLMを比較し、GPT-4が他のモデルよりも優れたパフォーマンスを示すことが分かりました。GPT-4は特に構造化された予測において強力であり、正確なJSON形式の生成において堅牢なパフォーマンスを示します。

VLM（視覚言語モデル）: 3つの最先端のVLMを調査し、CogAgentとLaViLaが類似のパフォーマンスを示す一方で、BLIP-2が劣ることが明らかになりました。VLMは、画像フレームを説明的なキャプションに変換し、それをモデルに供給します。

CLIP（対照的言語イメージモデル）: 異なるCLIPのバージョンを評価し、すべてのバージョンで同等のパフォーマンスが得られることが示唆されました。CLIPは、検索タスクに優れており、画像の埋め込みを再計算する必要がないため、効率的です。

ケーススタディ

NExT-QAのインスタンスを解決する例が示され、VideoAgentが欠落している情報を特定し、必要な追加情報を決定し、CLIPを利用して詳細を取得する方法が説明されています

VideoAgentがYouTubeからの1時間のビデオを正確に解決する方法が示されました。このケースでは、特定されたフレームがGPT-4Vに提供され、質問に正しく答えられることが強調されました。

結論

この研究では、VideoAgentという大規模な言語モデルを活用したビデオ理解システムを紹介し、複数ラウンドの反復プロセスを通じて情報を効果的に検索・集約することで、長時間ビデオの理解における優れた有効性と効率性を示しています。今後は、モデルの改善と統合、リアルタイム応用への拡張、さまざまな応用分野への適用、そしてユーザーインタフェースの改善などに焦点を当て、VideoAgentのさらなる進化と幅広い応用が期待されます。