深層学習を用いた3D姿勢推定の学習

機械学習 2018年09月03日

本論文は、2018年1月にInternational Journal of Computer Visionという画像/動画認識をテーマにした論文雑誌で掲載されたものです。

ディープラーニングを用いた姿勢推定

今日ご紹介するテーマは「姿勢推定」という、人間の動作を認識、推定（予測）する技術についてです。人間の動作認識というとまず思い浮かぶのはモーションキャプチャーでしょうか。モーションキャプチャーとは、マーカーと呼ばれるポイントが無数にうたれたスーツを着て動きを撮影して認識するというもの。（下みたいなやつ）

昨今この姿勢推定に画像/映像のディープラーニングを用いることで、マーカーをつけずに姿勢推定する研究が盛んです。

今回の論文は画像の深層学習を用いて、次にどのような動作をするか予測をするものです。例えば上でも述べた、歩くや走るといった基本的な動作から、ピッチャーの投球フォーム、サッカーでボールを蹴るといったスポーツにおける動作まで、様々な予測を行うことが高速かつ高精度になれば、今後、様々な業界において重要な役割を担うと考えられます。

既存の手法には欠点が

最近の回帰ベースによる方法は、入力画像与えられた3D姿勢を直接かつ効率的に予測できますが、上記のような人間が簡単に行っている視覚的な認識をシステム上に落とし込むには、非常に複雑な計算式と膨大な計算量が必要になります。そのため、計算中に起こるミスや計算量によるラグから正確な姿勢、次の動作を予測するシステムはまだ確立されていませんでした。

これらの問題に対し、本論文の新規性は、単眼画像や2次元の関節位置ヒートマップから抽出したデータを深層学習させることで3次元化した点と、LSTM(Long Short Term Memory)を用いて次の行動を予測するアルゴリズムを組み合わせた点にあります。この方法により、行動予測の精度とスピードを高めることに成功しました。

図２

この技術をさらに発展することが出来れば、例えば、お店の中に入った人の行動予測が取れたり、スポーツにおいてトップ選手の身体の使い方を知り、瞬時に予測をしてホームランが打てるようになるかもしれませんね。

今回の論文は、行動予測というテーマのものを取り上げてみました。深層学習を理解することで、人の動きを予測することが出来てしまうなんて、技術の発展に本当に驚いています。この技術はさらに、VRのようなゲームをよりリアルにすることなんかもできるようになるかもしれません。

Isinsu Katircioglu et al.(2018).Learning Latent Representations of 3D Human Pose with Deep Neural Networks. International Journal of Computer Vision.