Bio-LSTM、自動運転車における歩行者の次の動きを全身3Dメッシュから推測

論文 2019年02月22日

ミシガン大学の研究チームは、自動運転車において、既存の技術よりも高い精度で歩行者の動きを認識および予測するシステム「Bio-LSTM」を発表しました。これにより、自動運転車周囲の歩行者（1人または複数）の体がどう動くかの次のステップと、次の場所を予測することがより正確になりました

論文：Bio-LSTM: A Biomechanically Inspired RecurrentNeural Network for 3D Pedestrian Poseand Gait Prediction

人間の物理的な制約を組み込んだ姿勢推定

現実の世界で車が動いて相互作用するのであれば、歩行者がどこへ向かうのかという予測が、車が次に進むところと一致しないようにする必要があります。

つまり、車両に必要な予測力を持たせ、人間の歩行のペース(周期性)、手足の対称性、歩行中の安定性、足の配置の影響などを把握することが重要です。これにより、車両は衝突を回避し、乗り心地と安全性を向上させることができます。

本論文では、そのような人間の物理的な制約、歩行周期性、四肢の鏡面対称性、歩行サイクルにおける地面反力（GRF）などの変化を目的関数として組み込んだ、Bio-LSTM（生体力学的触発リカレントニューラルネットワーク）を提案しています。

LSTMと姿勢推定

LSTMネットワークは、時系列データを扱うのが得意なため、シーケンス予測のための文献で広く使用されており、最近では、映像における将来のフレーム予測や姿勢推定にも適用されています。しかしながら、これらのアプローチはピクセル・レベルの予測に集中しており、人間のポーズ表現（骨格またはメッシュ）ではあまり有用ではなかったとのこと。
骨格を検出し２Ｄ画像上に重ねることによって視覚化するという方法もありますが、骨格ベースの方法だけでも人体の姿勢を正確に表すとは限りません（下図）。

例えば、手首関節場所に非常に小さな違いがありますがこれは生物学的に存在しない体のポーズです。正確な姿勢推定を行うには骨格に加えポーズを表すための3D全身メッシュを予測することが重要です。

本論文は、これらの問題に対して、グローバル座標系における歩行者の位置と、従来の骨格ベースの３Ð関節位置に加えて全身3Dメッシュを予測することができるBioLSTM（この仕事を解く生物力学的に啓示を受けた再発するニューラル・ネットワーク）を提案しました。

基本的なネットワークアーキテクチャとして、２層積層ＬＳＴＭと、それに続く高密度接続ニューラルネットワーク（ＮＮ）層が実装されてます。そして、人間の歩行の生体力学的特性を考慮に入れるためにバイオ制約が実施されまてます。ここでは、生体力学的特性：歩行周期性、人体の鏡面対称性、および人間の歩行サイクルにおける地面反力（GRF）などの変化を、目的関数として組み入れています。これにより、次の動きを予測するための選択肢の数を減らし精度を高めます。