Optical Flowを用いることで静止画からの動作推定が向上

人の視覚野は動いている物体を切り取った静止画に 対しても動画と同じように反応することが研究でもわかっており、画像内に存在する人間の姿勢についてある程度予測することも可能です。そこで本研究では、静止画からの動き(Optical Flow)の推定がNeural Networkにもできるのでは?という発想に基づき、単一のスナップショットにから暗黙のうちに観測されていない動きを幻覚化させるアプローチを提案しました。

論文:Im2Flow: Motion Hallucination from Static Images for Action Recognition

静止画→動き(Optical Flow)→動作認識 

人間は長年にわたる観察を通して、世界で物事がどのように動くかについての視覚的経験を蓄積しており、静止画像は人間にとって、次に起こる可能性が高い動作を推定する材料となり得ます。

人の視覚野は動いている物体を切り取った静止画に 対しても動画と同じように反応することが研究でもわかっており、[Kourtzi+ 2000」単一静止画像が与えられた場合、瞬間的な意味内容を解釈することができるだけでなく、例えば、画像内に存在する人間の姿勢やオブジェクト構成に基づいて、推測することも可能です。

しかし、静止画像から動作を認識する既存の方法は、それぞれの動作クラスを区別する外観(オブジェクト、シーン、ボディポーズ)を学習しながら、画像をその額面価値で取得する場合が多く、そのようなモデルは人間の活動を定義する豊かな動的構造や動きを奪われているとのこと。

そこで本研究では、静止画からの動き(Optical Flow)の推定がNeural Networkにもできるのでは?という発想に基づき、単一のスナップショットにから暗黙のうちに観測されていない動きを幻覚化させるアプローチを提案しました。

まず、最初に、画像から動き(Optical Flow)を推定する ネットワークを提案し、次に、大量の動画データからOptical Flowを学習させます。最後に、上記で推定したOpticalFlowを用いて 画像から動作(action)推定させることで精度が向上したとのこと。

※オプティカルフロー(英: optical flow)とは、視覚表現(通常、時間的に連続するデジタル画像)の中で物体の動きをベクトルで表したものである。

なぜ画像から推定したOptical Flowが動作推定に効くのか

画像からの動作推定には、動きのような複雑な高次元の信号に注意を向けること が必要ですが、しかし、画像データ単体には学習するための信号が不足しており、動きを推定するための学習が困難です 。(似た画像で違う動きの画像がたくさんある )

今回の提案では、動き(Optical Flow)が動作推定における深情報となり、従来手法上回る精度で動作推定が 可能になりました。(画像的に似ている動作をOptical Flowの推定により区別できるようになった)

また、大量の動画データから、正則化のための事前確率を学習できたことも要因の一つだと考えられます。

手法

Im2Flowフレームワークのネットワーク・アーキテクチャー。

ここでは、ビデオからオブジェクトや人々がどのように動くかのモデルを取得し、それから結果として得られる知識を個々の画像の表現に埋め込みます。そうすることで、観察の一瞬(単一の画像)に限定されていても、予想されるダイナミクスによって行動認識を知らせることができます。

動画からの動きを事前に学習させるために、以下の手順を取ります。

1画像入力に対して、動き(Optical Flow)を推定するモデルを Encoder-Decoderの形で実現する

2. 上記の学習をラベルなし動画データをもとに学習する

3. 推定したOptical Flowを用いて、画像からの動作推定を行う。

 

実験

 

①画像からのOptical Flowの推定

最初に、以下のデータセットを用いて、画像からのOptical Flowを推定します。

・UCF-101:101種類の人のアクションの分類データ

・HMDB-51: 51種類の人のアクションの分類データ

・ Weizmann: 単純な人の動作の動画データと特徴量のデータセット 12

これら動画データから 切り出した フレームを 学習/テストに利用しました

CNNベースのclassificationの手法や、 最近傍探索ベースの手法などの先行研究に比べて、精度が高いという結果になりました。画像入力に対するOptical Flowの大きさから、動作の潜在能力を計算可能ということがわかりました。

 

② 画像データ+提案手法で推定した Optical Flowでアクション推定

次に、画像データとOptical Flowの2スクリーンを用いて、動作推定を行いました。

上記で使用した、UCF-101 、HMDB-51に加え、以下のデータセットを利用します。

・Penn Action: 動画からsportsアクションを推定するデータセット

・Willow: 画像から7つのアクション分類

・Stanford10: Standord40のサブセット。

・画像からの 10のアクションへの分類

・PASCAL2012: 画像から11クラスのアクション分類のデータセット

Optical Flow単体からのアクション推定をした場合でも、従来手法より高精度という結果になりましたが、画像+Optical Flowの2スクリーンから動作を推定した場合の方がより高い性能を示しました。

まとめ

今回の提案では、動き(Optical Flow)が動作推定における深情報となり、従来手法上回る精度で動作推定が 可能になりました。また、 今後の課題としては、多重ビデオフレームの時間発展を符号化するための階層的表現を探索することを計画しているとのこと。