最新AI論文をキャッチアップ

長編動画の理解力を試す新たなベンチマーク「Vript-Hard」

長編動画の理解力を試す新たなベンチマーク「Vript-Hard」

Large language models

3つの要点
✔️ 高解像度の動画と詳細なキャプションで構築された動画-テキストのデータセット「Vript」を提案
✔️ 最先端の動画キャプションモデル「Vriptor」を開発   

✔️ 幻覚評価や長編動画の理解力を評価する新しいベンチマーク「Vript-Hard」を提案

Vript: A Video Is Worth Thousands of Words
written by Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
(Submitted on 10 Jun 2024)
Comments: submitted to NeurIPS Dataset & Benchmark track.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

近年、マルチモーダル学習の進歩によって、動画を理解し、生成するモデルの研究が活発になっています。そして、それに伴って、高解像度の動画と詳細なキャプションによって構築された高品質なデータセットの需要が急増しています。しかし、動画には時間という要素が加わるため、画像のようにテキストとのペアを簡単に用意することはできません。動画とテキストのペアを用意するのは、はるかに難しいタスクです。例えば、旅行の動画ブログ(Vlog)では、旅の準備や宿泊先の様子、観光地の訪問など、多くのシーンが含まれています。このような動画に詳細かつ適切なキャプションを付けるには、動画を確認し、シーンに応じたキャプションをつけていく必要があり、膨大な時間と労力が必要です。そのため、動画-テキストのペアで構築された従来のデータセットでは、短い動画に、簡素なキャプションが含まれているようなものがほとんどというのが現状です。

この課題を克服するために、この論文では、長尺の動画にも適用可能で、従来よりも詳細なキャプションで構築された動画-テキストのデータセット「Vript」を構築しています。Vriptには、GPT-4Vによって、アノテーションされた12,000本以上の高解像度の動画(約420,000クリップ)が含まれています。Vriptのアノテーションは、動画のスクリプトの形式に基づいており、各シーンについて、コンテンツだけでなく、ショットの種類やカメラの動きにも着目しています。従来のデータセットとは異なり、この論文ではトリミングされていない動画に対して、詳細にアノテーションし、シーンごとに約145語の長いキャプションを付けています。また、視覚情報に加えて、ナレーションをテキストに文字起こし、動画タイトルとともに背景情報として補完することで、キャプションの情報量や精度を向上させています。

既存の研究によると、詳細なキャプションは、視覚と言語の関連付け/対応付けを改善するのに役立つことがわかっています。しかし、上述の通り、ほとんどのデータセットには短いキャプションしかなく、密で詳細なアノテーションはされていません。そこで、この論文では、動画とテキストの関連付け/対応付けを高めるために、次の3つの新しいアプローチを採用しています。

  • 動画のスクリプト活用
    • 複数の連続するシーンをサンプリングして長い動画を作成し、対応するキャプションを連結して長いテキストを生成
  • ナレーションの文字起こし
    • ナレーションの文字起こしと動画を組み合わせて入力
  • 動画のタイムスタンプ活用
    • ナレーションと動画のタイムスタンプを追加情報として入力

これらのアプローチに基づいて、この論文では「Vriptor」という動画キャプションのモデルも構築しています。Vriptorは短い動画から長い動画まで、密で詳細なキャプションを生成することができ、オープンソースモデルの中でSOTAの性能を達成しています。

さらに、従来のベンチマークよりも難易度の高い3つのタスク(幻覚評価、長い動画の推論、イベントの再順序付け)で構成される動画理解のベンチマーク「Vript-Hard」も提案しています。

動画キャプションの詳細化

Vriptの構築において、この論文の目標は、動画をできるだけ詳細にアノテーションし、そのキャプションを通じて動画を視覚化できるようにすることです。動画の各シーンについて、粗いキャプションではなく、詳細な動作や相互作用にも着目してキャプションを記述しています。ここには、物体やキャラクターの外観、環境、光、動画のスタイルなどさまざまな情報が記載されます。

また、カメラがどのように動いて撮影されているのかという点にも着目しています。従来の研究では、画像のキャプションを動画のキャプションに利用し、動画に特有なカメラの動きという情報は活用されていませんでした。例えば、男性が自転車に乗っている動画クリップに対して、単に「暗い青いシャツを着た男性が黒い自転車に乗って道を進んでいる」と説明するだけでは不十分であり、「カメラがパンしてクローズアップショットになると、暗い青いシャツを着た男性が黒い自転車に乗っている。カメラがズームアウトすると、山々を背景に道を進む男性の全体像が見える」といった具体的な説明の方がより有用です。このように、動画のキャプションの質を向上させるために、コンテンツに加えて、カメラの挙動に関する情報も加えています。 

静的な状況にカメラの挙動に関する情報を組み合わせることは、動画スクリプトのシーンを説明することと近似できると言えます。そのため、Vriptでは、動画スクリプトの形式に従い、PySceneDetectで動画をシーンに分割し、各シーンに静的な状況とカメラの挙動に関するキャプションをアノテーションしています。これを「動画スクリプティング」と呼んでいます。そして、この論文では、動画データとして、HD-VILA-100Mから10,000本のYouTubeの長編動画を選び、YouTube ShortsとTikTokから1,500本の短編動画を収集しています。また、GPT-4Vを利用して、各シーンに以下の情報をアノテーションしています。 

  • タイトル:シーンの要約(10語以内)
  • コンテンツ:約150語の詳細な説明
  • ショットタイプ:全景、クローズアップなど
  • カメラの動き:パンニング、ズーミングなど

動画に高品質なスクリプトを付けるために、トリミングされていない動画(5秒から2.9時間までの長さ)を開始から終了まで、密にアノテーションしています。さらに、動画フレームに加えて、アノテーションを補助するための外部情報も追加しています。Whisperで文字起こしされたナレーションや動画のタイトルを利用して、元の動画の内容をモデルに入力しています。この外部情報によって、幻覚を大幅に減少させ、キャプションの精度が向上し、モデルが視覚情報だけでなく、動画の内容をよりよく理解できるようにしています。

例えば、下図に示されているように、Scene-010のフレームを見るだけでは、ボウルに加えられている材料が何であるかを推測することはできません。ナレーションの情報で、材料がマヨネーズとマスタードであることがわかり、右上のパネルに表示されているキャプションの精度向上に繋がっています。

Vriptor

一般的に画像とテキストを対応させる際には、1つの動画に対して1つのキャプションを対応させています。しかし、既存の動画-テキストのデータセット(Panda-70M、WebVid-10Mなど)には、簡易なキャプションしかなく、詳細情報が不足しているため、画像とテキストの関係付け/対応付けが十分とは言えないのが現状です。この問題を解決するために、この論文では、Vriptデータセットを使用して動画をより多くのテキストと対応させる方法を研究しています。その結果、Vriptorという強力な動画キャプションのモデルを構築し、動画を扱うオープンソースの大規模言語モデルの中で、SOTAの性能を達成しています。

動画が詳細にアノテーションされている場合、対応させるテキストの量を増やす方法にはいくつか考えられますが、そのうちの1つは、複数の連続するクリップのキャプションを連結する方法です。しかし、この方法では、キャプションが別々にアノテーションされているため、連結されたキャプションの文脈や意味が一貫していない可能性があります。そこで、動画スクリプトの形式を参考にして、連続するキャプションを動画スクリプトのシーンとして再構成しています。これによって、シーンごとのキャプションが非常に詳細で、背景や文脈が一貫するため、意味の統一性を担保することができます。Vriptでは、連続するクリップをいくつかサンプリングして「サブスクリプト」を作成することができます。例えば、10個の連続するクリップと対応する「サブスクリプト」は約1,500語を含み、短いキャプションよりも約100倍長くなっています 。

また、ナレーションの文字起こしを追加しています。Vriptはナレーションと動画フレームを一緒に入力することでアノテーションされているため、キャプションにはナレーションからの情報が含まれています。 

動画を扱う一般的な大規模言語モデルは、動画を入力する際に複数のフレームを抽出する特定のサンプリング手法を実装していますが、これらのモデルは時間の認識が弱く、フレームの順序だけを知っていても、フレームがどれくらい続くかを把握することができません。そこで、この論文では、動画スクリプト対応のためにタイムスタンプが重要であると考え、入力のナレーションと出力のキャプションに動画のタイムスタンプを追加しています。これにより、モデルは各シーンの開始と終了を理解しやすくなっています。

これらの手法を統合してVriptorを学習しています。下図(再掲)では、4種類の入力と出力を組み合わせています。1シーン→1キャプション、1シーン+ナレーション→1キャプション、複数シーン→1スクリプト、複数シーン+ナレーション→1スクリプトの4つです。すべてにタイムスタンプを追加しています。

また、VriptorをST-LLMに基づいて2段階で学習し、Vript-HALとMSR-VTTで、そのキャプションの能力を評価しています。Vriptorは「動画全体を説明する」と「シーンごとを説明する」の2種類をサポートしています。動画全体を説明する際は、Vriptorは100〜150語の一般的な説明を行います。シーンごとを説明する際は、各シーンについて100〜150語の詳細な説明を行います。下表によると、Vriptorは、シーンごとの説明では、動画全体の説明に比べてより詳細に動画の説明を行い、Recallが向上していることがわかります。

下図では、Vriptorが長いテキストで長い動画をキャプションする能力を示しています。

下表(再掲)の最後の2行では、ナレーションを追加することで、モデルがより詳細で正確な説明を提供できることを示しています。また、キャプション内の固有名詞の割合が14%増加しました。これにより、モデルは外観だけでなく、ナレーションを分析することで物体の名前を推測する能力があることが示唆されています。

 

さらに、タイムスタンプの効果を検証するために、タイムスタンプを追加せずに別のモデルを学習し、これらの2つのモデルを比較しています。その結果、動画全体の説明では改善がわずかですが、シーンごとの説明では顕著な改善が見られました。タイムスタンプを追加したモデルは、各シーンの開始と終了を理解し、どのシーンがどの期間に対応しているかを識別できるため、前のシーンから重複した説明を生成する可能性が低くなります。また、タイムスタンプを追加したモデルは、Vript-HALで12%高いリコールを示し、タイムスタンプを追加しないモデルは動画の一部を説明し忘れる可能性が高いと言えます。

Vript-Hard

マルチモーダルモデルの性能が向上するにつれて、その能力を評価するためにより高度なベンチマークが求められています。そこで、この論文では「Vript-Hard」という新しい動画理解ベンチマークを提案しています。このベンチマークは、3つの難易度が高いタスク(HAL(Hallucination Evaluation)、RR(Retrieval then Reasoning)、ERO(Event Re-ordering)で構成されています

また、BLIP2、InstructBLIP、Qwen-VL、LLaVA 1.6 34Bといった画像を扱う大規模言語モデルや、VideoChatGPT、VideoLLaMA、VideoChat、VideoChat2、ST-LLMなどの動画を扱う大規模言語モデルを評価しています。また、Claude 3-Sonnet、Opus、GPT-4Vといったクローズドソースのモデルも評価しています。

Vript-HAL:幻覚評価のためのベンチマーク

過去の研究では、画像を扱う大規模言語モデルの幻覚を検出および評価する方法が研究されていますが、動画を扱う大規模言語モデルも同様に幻覚の問題が報告されています。例えば、動画を扱う大規模言語モデルに動画を説明させると、物体や動作を誤解し、幻覚を含む説明を生成することがあります。既存のキャプションベンチマーク(MSR-VTTやMSVDなど)は、10語以内の短いキャプションしか持たず、詳細に欠けるため、幻覚を評価するには不十分です。

この課題に対処するために、V「ript-HAL」というベンチマークを構築しています。Vript-HALの動画ごとに約250語のキャプションでアノテーションされており、MSR-VTTの25倍の長さです。この詳細なグラウンドトゥルースのキャプションを基に、動画を扱う大規模言語モデルがキャプションに幻覚を生成するかどうかを確認することができます。

従来の評価指標(BLEU、ROUGE、CIDErなど)は、予測テキストとグラウンドトゥルーステキストの単語の類似性を測定することで精度を評価していますが、物体や動作が正しく記述されているかどうかを評価するには適していません。そこで、この論文では、キャプション内の名詞(物体)と動詞(動作)が正しく記述されているかどうかを精度スコアで評価しています。

また、キャプションの長さと詳細がモデルによって異なるため、リコールも導入し、グラウンドトゥルース内の物体や動作がどれだけ正しく記述されているかを測定します。また、幻覚評価の総合スコアとしてF1スコアを算出しています。

具体的には、正確に記述された物体や動作の数を基に精度を計算し、グラウンドトゥルースに基づいてどれだけ正確に記述されているかをリコールで評価します。この評価にはSpaCyを使用して名詞や動詞を抽出し、センテンス・トランスフォーマーを用いて単語埋め込みを作成します。予測とグラウンドトゥルースのコサイン類似度が一定以上であれば、正しく記述されたと見なしています。

Vript-HALでは、多くの画像を扱う大規模言語モデルや動画を扱う大規模言語モデルを評価しています。下図から、一部のモデル(例えばBLIP2やVideoChat2)は、短いキャプションを生成することで詳細が少ないため、幻覚が少ないことがわかります。Vriptor-W(動画全体)は一般的な説明を提供し、Vriptor-S(シーンごと)は動画の詳細を多く記述し、高いリコールを示しています。両モデルは、動画キャプションにおいてGPT-4Vに匹敵する性能を持っています。

Vript-RR:長編動画の理解のためのベンチマーク

長編動画の詳細について質問すると、異なるタイムスタンプで質問に合う複数の答えが存在する場合や、時間が経過するにつれて答えが変わる場合など、曖昧さが生じることがあります。この曖昧さは、長編の動画理解のベンチマーク(例:EgoShecma)で一般的に見られる問題です。そこで、この論文では、Vript-RR(Retrieval then Reasoning)という新しいベンチマークを提案し、この問題を解決しています。

このベンチマークでは、まずモデルが質問に関連するシーンを動画内で見つけるためのヒントを提供します。このヒントは、関連するシーンの詳細な説明です。その後、そのシーンに基づいて質問を行うことで、曖昧さを排除します。実際には、下図に示されているように、ヒントと質問を動画全体とともに入力し、モデルは直接答えを出力します。このプロセスはエンドツーエンドです。

ヒントは慎重に作成されており、モデルが簡単に答えを見つけられないようにしています。Vript-RRでは、動画を扱う大規模言語モデルのさまざまな能力を評価するために、各質問に少なくとも1つの推論ステップまたは追加の処理(例:テキストの読み取り、詳細な検査)が必要な質問を設計しています。

Vript-RRは、動画の入力に基づいて2つのサブタスクで構成されています。1つは動画全体を入力するもので、もう1つは関連するシーンを直接入力するものです。Vript-RRは、選択形式と自由形式の質問を提供します。自由形式の出力については、GPT-4 turboを判定者として利用し、予測とグラウンドトゥルースを比較して答えが正しいかどうかを評価しています。

下表に示されているように、「Scene」列は関連するシーンを入力として使用した結果を表しており、これはモデルが動画全体を検索して関連シーンを見つける必要がないため、より簡単なタスクです。「Whole」列では、動画全体を入力として使用し、モデルがヒントを使用して関連シーンを見つける必要があり、長編動画の理解能力が求められます。GPT-4VやClaude 3などのクローズドソースモデルは、オープンソースのモデルよりも優れた性能を示しています。

Vript-RRの各動画について、動画の15%、40%、60%、85%の位置にあるシーンから抽出した質問を設計しています。これにより、動画内のシーンの時間的な位置がVript-RRの結果に影響を与えるかどうかを調査しています。モデルはテキストトークンではなく視覚トークンを通じて「針」(関連シーン)を見つける必要があります。このタスクでは、「針」が長いコンテキストの15%から85%の間に位置する場合、特にテキストの長さが少なくとも16Kトークンを超えると、モデルの性能が大幅に低下する現象が見られます。下図に示されているように、視覚トークンの数は16Kよりもはるかに少ないものの、シーンが視覚トークンの中間(動画の40%および60%)に位置する場合、ほとんどのモデルで性能の低下が見られます。

Vript-ERO:長編動画の時間的理解のためのベンチマーク

いくつかのベンチマークでは、モデルの時間的な理解力をテストしています。しかし、これらのベンチマークは短いクリップ内でのアクションの時間順序に関する質問に焦点を当てており、長編動画のイベントの時間的理解を探求するものはほとんどありません。このギャップを埋めるために、この論文ではVript-ERO(イベントの再順序化)タスクを提案しています。このタスクでは、長編動画(2分から2時間までの範囲)から異なるタイムスタンプの3つの異なるシーン(平均10秒間)をサンプリングし、それらの年代順をシャッフルします。下図に示されているように、長編ビデオとシャッフルされた3つのシーンの詳細な説明を基に、モデルは動画全体の理解に基づいてシーンの正しい時間順序を答える必要があります。


下表(再掲)では、"-"はこれらのモデルが答えを出すことができないことを表しています。以前のタスクとは異なり、Vript-EROにはシーンの長い説明も含まれており、これがモデルが長い指示を処理するのに弱いことを示しています。スコアがあるモデルでも、3つのシーンすべての正しい順序を答えられるのは約20%の質問に過ぎません。

また下図では、不正解となった質問の答えを収集し、その理由を分析しています。モデルが提供された説明によって簡単に誤解されることが観察されています。31.4%のケースでは、GPT-4Vのようなモデルの入力画像数の制限により、いくつかのイベントが入力フレームに欠けていることが原因です。また、25.1%のケースでは、モデルが説明に基づいてどのシーンを順序付けるべきかを認識できていません。 

まとめ

近年、マルチモーダル学習の進歩によって、動画の理解や生成のモデルがますます注目されています。この結果、高解像度の動画と詳細なキャプションを備えた高品質な動画テキストデータセットの需要が急増しています。しかし、動画には時間的な要素が加わるため、画像とテキストのペアに比べて動画とテキストのペアを取得し、アノテーションを付けるのは困難です。例えば、旅行の動画ブログには、旅の準備や目的地の訪問など、多くのイベントが含まれ、それぞれが異なるシーンで構成されています。動画キャプションを付けるには、動画全体を確認し、詳細をアノテーションするために多くの時間と労力が必要です。そのため、従来の動画テキストデータセットには、短く粗い記述しか含まれていないことが多いのが現状です。

このような課題を克服するために、この論文では、密で詳細なキャプションを持つ高品質なビデオテキストデータセット「Vript」を提案しています。また、これを基に、オープンソースモデルの中でトップパフォーマンスを誇る動画キャプションモデル「Vriptor」を構築し、動画を扱う大規模言語モデルの幻覚や長編動画理解力を評価するための挑戦的なベンチマーク「Vript-Hard」も構築しています。Vriptorは短い動画から長い動画まで、密なキャプションを生成するのが得意で、オープンソースモデルの中で最先端の性能を達成しています。

この研究は、動画とテキストの対応付けを深める新しい方法を提案し、動画キャプションモデルの性能を向上させるだけでなく、モデルの理解能力を評価するための新しいベンチマークを提供しています。今後の研究や実用化に貢献することが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする