深層強化学習を用いたテキスト質問からのビデオローカライズ検索

ソーシャルメディアや監視などのアプリケーション分野におけるビデオの可用性とその重要性の高まりにより、自動ビデオ分析方法が急務になっていますが、新しい論文では、瞬間を一時的にローカライズするためにビデオ全体を見る必要がない方法が提案されています。

【参考論文】tripping-through-time-efficient-localization-of-activities-in-videos

ビデオの可用性とその重要性

ソーシャルメディアや監視などのアプリケーション分野におけるビデオの可用性とその重要性の高まりにより、自動ビデオ分析方法が急務となっています。ノイズの多いラベルや存在しないラベルを持っているビデオや、監視、教育用の長いビデオクリップではターゲット場面を抽出するのに時間がかかります。

より困難で重要なタスクは、大量の整理されていないビデオコンテンツを効率的に検索して、特定の瞬間を検索することです。

言語クエリを使用してトリミングされていないビデオの瞬間をローカライズすることは、言語をビデオに正確に変換する機能を必要とする作業です。これまでの研究では、関連するアクティビティをローカライズするために、ビデオ全体を1回以上処理することでこのタスクに取り組んでいました。しかし監視など、このタスクが適している実社会のアプリケーションでは、効率性が重要になってきます。

例えば、通常人間はクリップを最初から早送りし、目的の領域に近づくまでスパースフレームのセットを効果的にサンプリングします。その後、開始点がローカライズされるまでフレームごとに移動します。その時点で検索は終了し、大部分のフレームは未検査のままになります。重要なイベントはターゲットクリップ内のどこでも発生する可能性があり、効率的なソリューションは最初から開始するなどの単純なヒューリスティックをはるかに超えたものでなければなりません。

本稿では、テキストとビデオの内容を揃えるために、Gated-Attentionを使用した、テキスト質問を与えられた時間内に高精度で自動的にローカライズするエンドツーエンドシステムであるTripNetを提案しています。さらに、TripNetでは深層強化学習を使用して、ビデオをインテリジェントにスキップする方法を学習することにより、長いビデオ内の関連するアクティビティクリップを効率的にローカライズします。

3Dナビゲーションと強化学習

ビデオの一時的な風景をナビゲートすることを効率的に学ぶためには、どうすればよいでしょうか。
強化学習エージェントを使用してビデオ内の特定のアクティビティを見つけることは、3次元の世界をナビゲートするエージェントと非常によく似ています。

2017年には、実体化質問応答[ 1 ]のタスク が提案されています。このタスクでは、エージェントは「バスタブは何色ですか」など、環境に関する質問を受けます。エージェントはバスタブに移動して質問に回答する必要があります。この研究では方法質問の言語を直接シーンのピクセルにではなく、シーンをナビゲートするためのアクションに根づかせることに焦点を当てており、テキストクエリを正しいビデオクリップに絞り込むためのアクションに関連付けます。

別の最近の研究 [ 2 ] では、エージェントに「緑の赤い松明に行く」のような視覚的に根拠のある命令を与え、オブジェクトを見つけるために環境をナビゲートすることを探求させています。この一連の作業は、今回の作業と似ており、エージェントはナビゲーション命令を与えられず、代わりに、どのオブジェクトを見つけるべきかの具体的な視覚的記述を与えられます。

今回の場合では、再生コントロールを使用してビデオ内のイベントを時間的にローカライズすることと、エージェントが特定の関心のあるオブジェクトを探して環境内を移動するために実行することとの間のアナロジーを作ります。

提案手法TripNet

今回解く定位問題は次のように定義することができます。

トリミングされていないビデオVと言語クエリLが与えられると、その目的はクエリLによって記述されるビデオV内の特定のクリップWを時間的に定位することである。

これは、短いクリップを観察し、目的のクリップを絞り込めるようになるまで、ビデオ内で前後に何フレームもスキップするという決定を下す人のアノテーターが動機となっています。強化学習(RL)を使用して、ビデオの周囲の固定サイズのウィンドウを操作してビデオVのすべてのフレームを見ずにクリップWを効率的に見つけることができるエージェントをトレーニングします。

図2は強化学習フレームワーク、TripNetの概要です。このネットワークは、TripNetがビデオ全体を見渡すことなく、その瞬間の自然言語の説明に基づいてビデオ内の特定の瞬間をローカライズします。各状態は、自然言語クエリと、現在の境界ウィンドウ内のフレームである一連の連続フレームで構成されています。

TripNetは、状態処理モジュールとポリシー学習モジュールという2つの主要コンポーネントに分けることができます。状態処理モジュールは、ローカライズをサポートするためにビデオ(視覚)と言語機能の効果的な共同表現(埋め込み)を考案するためのものです。現在の状態の視覚言語エンコーディングを作成し、それをアクションを生成するポリシーモジュールに渡します。 

ポリシーモジュールでは、Actor-criticと呼ばれるフレームワークを用いて、言語クエリーを時間的ビデオ位置に接地する逐次決定プロセスをモデル化します。2016年にdeep mimdから発表された強化学習のアルゴリズム「A3C」として知られる方法を採用しています。

目的は、最も一致するクリップを返すポリシーを学習することであるため、各アクションが境界ウィンドウをもたらすようにしなければなりません。(グラウンドトゥルースクリップの境界に近い)。したがって、取るべきアクションは、前の状態よりもグラウンドトゥルースと重なるクリップがある状態を返す必要があります。ただし、エージェントに効率的な回数のジャンプを実行させる(過度にクリップをサンプリングしないようにする)必要もあります。この行動を促進するために、これまでのステップ数の合計に比例して小さなマイナスの報酬を与えます。その結果、エージェントはできるだけ早くクリップウィンドウを見つけることが推奨されます。

直感的には、Lに近いことを識別する視覚的な特徴が見つかるまで、エージェントはビデオの周りを大きくジャンプしグリップを探します。クリップのローカル化が狭くなるにつれて、小さなステップを踏み始めるといった感じです。

結果

以前の仕事とTripNetと比較します。精度と効率の観点から両方の方法を比較します。ビデオのサイズとテスト時間の間にクリップを見つけるのにかかる平均時間に関連して見られる平均フレーム数を見ることによって精度を探ります。

3つのビデオデータセット、Charades-STA 、ActivityNetキャプション 、TACoS にわたってTripNetアーキテクチャを評価します。


ActivityNet上の各方法の精度

TACoSに対する各方法の精度

Charades-STAに対する各方法の精度。

ActivityNetとTACoSデータセットでは他のすべての方法よりも優れており、Charades-STAでは最先端の方法と同等に機能することがわかりました。

また効率性を調べるために、比較対象となるすべての方法で候補ウィンドウがどのように生成されるかも調べています。

論文によると、他の方法では、オーバーラップやパスを必要としますが、TripNetは記述された瞬間を一時的にローカライズするためにビデオ全体を見る必要がないことが分かりました。その代わり訓練を受けたエージェントはそれが記述されたクリップをローカライズするまでビデオの周りに候補ウィンドウを知的に動かします。効率のさまざまな測定値が以下の表に示されています。予測を行うために平均してビデオフレームの50%未満しか見えないという効率的なシステムが得られています。

 

 

 

【1】Embodied Question Answering
【2】Gated-Attention Architectures for Task-Oriented Language Grounding