私が見ているものはあなたが見ているもの。一人称および三人称におけるビデオ同時分析

近年、ウェアラブルカメラによって一人称視点で撮影されるビデオが増えています。このような一人称ビデオは、従来の三人称ビデオ以外に追加の情報を提供するので、幅広い用途があります。先週発表された論文では、一人称と三人称のビデオにおける同時分析のための新しい方法が提案されています。

【論文】What I See Is What You See: Joint Attention Learning for First and Third Person Video Co-analysis

異なる視点から同じ現実世界をとらえる

現在、高品質で低価格のデジタルカメラが広く使用されており、1秒間に膨大な数のビデオをキャプチャすることができます。ビデオ内のビジュアルコンテンツを自動的に解釈することを目的とするビデオ分析は、コンピュータビジョンにおける研究の焦点となっており、主に、物体検出、行動認識、ビデオ監視、自動操縦などの幅広い用途において有用です。

このようなビデオのほとんどは第三者が撮ったビデオで、ビデオ内の人物やオブジェクトに関連付けられていないカメラ(三人称視点)によってキャプチャされます。

対照的に、近年、スマホなどのカメラによって一人称視点で撮影されるビデオが増えています。一人称のビデオは通常、人間中心の独自の視点からビジュアル世界を映したものと言えます。

このような一人称ビデオは、従来の三人称ビデオ以外に追加の情報を提供するので、幅広い用途があり、産業界と学術界の両方から注目を集めています。

しかしながら、両方の観点から共有情報を探索することは非常に困難でした。本稿では、一人称と三人称のビデオ同時分析のための新しい方法が提案されています。

同時分析における課題

両方の観点から共同で情報を探索することは依然として課題です。最近では、一人称と三人称情報を採用した大きなデータセットを使用することによって、2つの見解の共有表現を学ぶ研究もありました。これらは2つのビューをリンクすることの利点を実証していますが、対応する正しい関係を見つけることにおけるパフォーマンスはまだまだ不十分です。

主な難点は、2つのビューからキャプチャされた領域が互いに非常に異なるということです。1人称ビュー領域は、3人称ビューの領域の小さくて変形した部分にのみ対応します(上図)。したがって、2つのビューのフレームの共有表現を直接学習するのは難しいといえます 。

本提案

この論文は、一人称視点と三人称視点から、より効果的で頑健な方法で共有表現を学習する内容となっています。

本稿での重要なアイディアは、直接共有表現を学習するのではなく、図1に示すように、2つのビュー間の「同時注意(ROÀ)」を定義して抽出してから共有表現学習することです。 ここでは、視点間の共有表現が同時注目領域(共有ROA)に対応すると仮定しています。(上図)

提案されたフレームワークのアーキテクチャの概要

この方法では、まず入力として、「三人称のビデオフレーム」、「対応する一人称のビデオフレーム」、「対応しない一人称のビデオフレーム」を含む3つのフレーム (x 、y 、z )が与えられます。これら、異なる視点の映像フレームから、標準的なCNNを用いてそれぞれの特徴量を生成し、次に、2つの視点からCNNベース特徴量を直接比較するのではなく、各視点の同時注意領域(ROA)を予測するための新しい同時注意学習モジュールを導入します。三人称フレームと対応する一人称フレームとの間の注意ベクトルの類似性を促して同時注意領域(共有ROA)を予測します。最後に、2つのビュー間で知識を転送し、得られた共有表現を特定のビデオ同時分析タスクに適用します。

 

実験

2つのビューマッチングについて、ベースライン法と比較します。

ペア識別のタスクは、対応する一人称画像と三人称画像のペアを、対応しないものと区別することを目的としています。このタスクでは、評価基準として分類精度を使用します。

ビューマッチングでは、ビデオ内の対応するモーメント(1秒のビデオクリップ)を見つけることを目的とします。時間的な誤差がこのタスクの評価基準として使用されます。

公開データセットに関する実験結果は、提案された方法が2つのビューマッチングに関して最先端の方法よりも著しく優れていることを示しています。

さらに、さまざまなアプリケーションに対する利点を実証するために、2つの追加の実験が行われています。

1、視線予測

ビデオで人がどこを見ている(注視している)かを予測することは、ビデオ分析にとって重要です。下図に示されるように 、この方法は最先端の視線予測方法よりもさらに良い結果を達成しています。さらに興味深いことに、この方法は、入力画像内で人間の顔が検出できない場合でも、注視位置をロバストに予測することができました。

2、ビデオ要約

このパートでは、1人称ビデオと3人称ビデオから予測された共同注意が、ビデオ要約(進行中のアクティビティを潜在的に説明する重要な瞬間を発見すること)の効果的な方法を提供できることを示します。

例えば従来の方法では、男性がカメラに背を向けたときに重要フレームを検出できない場合がありますが、対照的に、本手法(b)は、追加の一人称視点からの助けを借りて、より重要な瞬間を確実に検出することができました。

また、3人称のビデオの入力に基づいて1人称のビデオを合成することも考えてるそうです。