VideoPrismが切り開くビデオ解析の可能性
3つの要点
✔️ VideoPrismは多様なビデオ理解タスクにおいて最先端の性能を達成
✔️ 科学的データセットを含む広範囲の評価で優れた汎用性を持つことを確認
✔️ 実用にはアルゴリズムのバイアス軽減やプライバシー保護などの責任ある対応が必要
VideoPrism: A Foundational Visual Encoder for Video Understanding
written by Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong
(Submitted on 20 Feb 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
ビデオは私たちの世界を映し出す鮮やかな窓であり、日常の瞬間から科学的探究まで、幅広い体験を記録しています。このデジタル時代において、Video foundation models(ViFMs)は、そのような膨大な情報を解析し、新たな知見を引き出す可能性を秘めています。これまでの研究は確かにビデオ理解の分野で大きな進展を遂げましたが、外観と動きを巧みに扱う、本当の意味で基盤的なビデオモデルの構築はまだ未達の領域です。
そこで、この論文では、ビデオの分類からローカライゼーション、検索、キャプション作成、質問応答に至るまで、ビデオ理解のあらゆるタスクに取り組むために設計された、革新的な汎用ビデオエンコーダーである「VideoPrism」を提案しています。コンピュータビジョンのデータセットや、神経科学や生態学などの科学分野を含む広範囲にわたる評価を通じて、VideoPrismは最小限の適応で最先端のパフォーマンスを発揮しています。下図は、VideoPrismの概要を表したものです。
VideoPrismの開発において、事前学習データの重要性を重視しています。理想的な事前学習データは、世界中のあらゆるビデオからなる代表的なサンプルですが、実際には、それらの中にはコンテンツを説明するテキストが付いていなかったり、非常にノイズが多いものが多く含まれています。そこで、VideoPrismは、36Mもの高品質なビデオとキャプションのペアと、582Mのノイズを含むビデオクリップを収集し、これらのデータを最大限に活用しています。
モデリングでは、ビデオと言語間の意味を対照学習させることから始めています。その後、ビデオのみのデータを用いて、グローバルとローカルの蒸留、トークンのシャッフリングを取り入れて、マスクされたビデオのモデリングを通じて、さらなる改善を図っています。この独自の2段階アプローチが、ビデオの外観と動きの両方に焦点を当てたタスクで、VideoPrismの卓越性を引き出しています。
このアプローチの有効性は、ウェブからのビデオ、台本に基づくパフォーマンス、そして科学実験に至るまで、33もの多様なベンチマークを含む4つの大きな理解タスクカテゴリーにおいて広範囲にわたる評価を通じて実証されています。VideoPrismは、これらのベンチマークのうち30で既存のビデオ基盤モデル(ViFMs)を大きな差で上回り、その卓越した性能を証明しています。結果は下図のようになっています。
これはVideoPrismが非常に」優れた一般化能力を持つことを表していると言えます。
手法
VideoPrismは、ビデオ理解のための革新的なアプローチを採用しています。その中核は、36Mのクリップを含む豊富な事前学習データセットです。これらは36Mのビデオから抽出されたもので、高品質な手動キャプションが付けられています。さらに、275Mのビデオから得られた582Mクリップには、ノイズを含むパラレルテキストが含まれています。この事前学習データの収集は、Video foundation models(ViFMs)において、これまでにない規模ですが、画像基盤モデルのために使用されるデータに比べればまだ少ないです。このギャップを埋めるために、この論文では、ASRやメタデータ、大規模マルチモーダルモデルを通じて生成された、ノイズのあるテキストを含む追加のデータも収集しています。
注目すべき点は、事前学習やそれ以降の学習で、評価ベンチマークの学習セットを一切使用していないことです。これにより、モデルが特定の評価ベンチマークに過度に最適化されることを防いでいます。さらに、データ漏洩を避けるために、事前学習コーパスを評価ベンチマークのビデオと重複排除しています。
モデルアーキテクチャに関しては、VideoPrismはVision Transformer(ViT)に基づいていますが、空間と時間の両方を考慮した設計を採用しています。これにより、空間的・時間的次元が出力トークンシーケンスに保持され、細かな特徴を必要とする下流タスクを支援しています。10億のパラメータを持つViT-giantネットワークを採用したVideoPrism-gと、より小さいViT-Baseネットワークを使用したVideoPrism-Bの2つのモデル構成で実験しています。
VideoPrismは、ビデオとテキストのペアだけでなく、ビデオのみのデータも活用して学習される独自の2段階のアプローチを採用しています。大規模な事前学習データセットのテキストが一部のビデオにおいてノイズを多く含むため、VideoPrismはビデオのみのデータに重点を置き、ビデオの深い意味を捉えています。
第1ステージ:このステージでは、ビデオエンコーダーとテキストエンコーダーを同期させるために対照学習が行われます。このプロセスは、ビデオテキストペアの類似性スコアに基づいて、対称クロスエントロピー損失を最小化することで、言語からのガイドによってビデオエンコーダーが視覚的セマンティクスを豊富に学習するのを補助しています。この段階で得られるモデルは、次のステージの学習のためのセマンティックなビデオ埋め込みを提供します。
第2ステージ:第1ステージでの視覚テキストデータのみに基づく学習では、テキストの説明がノイズを含むことや、動きよりも外観を捉えがちな問題に直面します。第2ステージでは、ビデオのみのデータから外観と動きの両方の情報を学習することに焦点を当てています。ここでは、マスクされたビデオモデリングの改善策として、新たなトークンシャッフリングスキームとグローバルおよびトークン単位の蒸留損失を導入しています。これにより、モデルはマスクされたビデオに基づいて、第1ステージの埋め込みを予測することを学習し、セマンティック知識の保持しています。
この2段階アプローチにより、VideoPrismはビデオの理解を深め、外観と動きのセマンティクスを捉えることができる基盤となるビデオエンコーダーを構築しています。
実験
VideoPrismは、ビデオ中心の理解タスクの幅広い範囲でその性能と汎用性を示すために評価されています。これらのタスクは、4つのカテゴリーに分けられます。1つは、一般的なビデオ理解です。これには分類や空間的・時間的ローカライゼーションが含まれています。2つ目は、ゼロショットビデオテキスト検索です。3つ目は、ゼロショットビデオキャプショニングとQAです。4つ目は科学研究向けのコンピュータビジョンです。
全ての実験で、VideoPrismはビデオエンコーダーとして固定され、特定のタスクに必要なコンポーネントのみが学習されています。これにより、VideoPrismの汎用性と、特定のタスクに特化したモデルに依存しない能力を評価することができます。また、ビデオエンコーディングのコストを複数のタスクにわたって分散させることができるため、VideoPrismのアプローチは特に、高価なファインチューニングが困難なビデオ分析において有用です。
まず初めにビデオ理解のためのベンチマークであるVideoGLUEにおいて、最先端のモデルと比較されています。この評価は、外観に焦点を当てたアクション認識(VC(A))から、動きが豊富なアクション認識(VC(M))、マルチラベルビデオ分類(VC(ML))、時間的アクションローカライゼーション(TAL)、時間的および空間的アクションローカライゼーション(STAL)に至るまで、8つの代表的なデータセットを利用して行われています。
VideoPrismは、ViT-BからViT-gへのモデルサイズの増加に伴い、顕著な性能向上を達成しています。VideoPrismがビデオ理解の幅広いタスクにおいて一貫して改善を達成していることが示されています。これは、VideoPrismが外観と動きの手がかり、空間的・時間的情報、そしてWebビデオと脚本付きパフォーマンスなどの異なるビデオソースに対する堅牢性を一つのエンコーダーに統合していることを意味しています。
次に、MSRVTT、VATEX、ActivityNetの3つの主要なベンチマークを使用して、VideoPrismのゼロショットビデオテキスト検索性能を評価しています。また、ゼロショットビデオ分類タスクでは、Kinetics-400、Charades、SSv2-Temporal、SSv2-Events、およびNExT-QAのATP-Hardサブセットに挑戦しています。
主要な結果として、VideoPrismは多くのベンチマークで新しい最高記録を樹立し、特に困難なデータセットで顕著な改善を達成しています。VideoPrism-Bは、既存のより大きなモデルよりも優れた結果を出しています。さらに、ドメイン内データや追加のモダリティで事前学習されたモデルと比較しても、VideoPrismは同等以上の性能を示しています。これらの成果は、VideoPrismがゼロショット検索および分類タスクにおける強力な一般化能力を持っていることを示しています。
また、MSRVTT、VATEX、YouCook2など、標準的なビデオキャプショニングデータセットと、MSRVTT-QA、MSVD-QA、NExT-QAを含むビデオQAベンチマークを使用して、ビデオキャプショニングとQAのタスクに対して、ゼロショット設定での性能評価しています。なお、キャプショニングとQAタスク向けにモデルを特別にチューニングしていません。
結果は下表の通りです。シンプルなアーキテクチャと限られた数のアダプターパラメータにもかかわらず、競争力があり、VATEXを除くほとんどの評価でトップの成績を達成しています。これは、VideoPrismのエンコーダーがビデオから言語への生成タスクに対して広範な一般化能力を持っていることを示唆しています。
既存のビデオ分析ベンチマークが主に人間を中心としたデータを対象にしている中で、科学的なデータセットを用いた広範なビデオセットに対してVideoPrismの能力とその科学的応用への可能性を探求しています。分析には、行動学、行動神経科学、認知科学、生態学など、多岐にわたる分野が含まれています。この研究は、科学的データセットにViFMsを適用した初の試みであり、専門的なモデルに匹敵、またはそれを超えるパフォーマンスを発揮することを明らかにしています。こ
分析には、ハエ、マウス、チンパンジー、ケニアの野生動物など、科学実験で捉えられた専門的な知識で注釈付けされた大規模ビデオデータセットが含まれます。これらは全て、行動のビデオ分類または空間的・時間的アクションローカライゼーションのために詳細に注釈付けされています。特に、CRIM13データセットでは、ケージの側面と上部の視点からのビデオが分析されています。
結果は、共有された凍結エンコーダーを使用することで、個々のタスクに特化したドメイン固有のモデルと同等かそれ以上の性能を達成することができることを示しています。VideoPrismは一貫して高いパフォーマンスを発揮し、特にベーススケールモデルで専門家モデルを上回る結果を示しています。さらに、モデルを大規模にスケーリングすることで、すべてのデータセットにおいてパフォーマンスが向上しています。これらの成果から、ViFMsがビデオ分析を多様な分野で大幅に加速する可能性があることが示されています。
まとめ
この論文で紹介している「VideoPrism」は、ビデオ理解の分野における最先端の技術を実現した基盤的なビデオエンコーダーです。独自の大規模な事前学習データセットの構築と、ビデオから外観と動きの情報を効果的に抽出する事前学習の戦略により、データとモデリングのアプローチに着目しています。幅広いベンチマークテストで最高の性能を達成し、他のモデルと比べて非常に高い一般化能力を示しています。
ビデオ理解の技術進歩は、科学研究から教育、ロボティクス、ヘルスケア、そしてコンテンツ推薦に至るまで、さまざまな分野における発展を加速させる可能性があります。これらの技術は、科学的発見を促し、学習体験を豊かにし、セキュリティと安全性を高め、より反応性の高いインタラクティブシステムを実現することが期待されます。
しかしながら、これらのモデルを現実世界で利用する前に、潜在的な偏見や誤用を防ぐための対策を講じることも重要です。アルゴリズムの偏見を減らし、プライバシーを保護し、責任ある研究の規範を守ることが求められます。この論文では、この技術がもたらす利点を責任ある方法で享受するために、これらの新技術開発に関するコミュニティ内での開かれた議論を引き続き推進することが重要になるとしています。
この記事に関するカテゴリー