LSTMの進化系「Bio-LSTM」。自動運転車における歩行者の次の動きを全身3Dメッシュから推測

ミシガン大学の研究チームは、自動運転車において、既存の技術よりも高い精度で歩行者の動きを認識および予測するシステム「Bio-LSTM」を発表しました。これにより、自動運転車周囲の歩行者(1人または複数)の体がどう動くかの次のステップと、次の場所を予測することがより正確になるとのこと

論文:Bio-LSTM: A Biomechanically Inspired RecurrentNeural Network for 3D Pedestrian Poseand Gait Prediction 

自動運転などのアプリケーションでは、歩行者の意図と将来の行動を理解し、推測し、予測することが重要です。この機能により、車両は衝突を回避し、乗り心地と安全性を向上させることができます。

そこで、この論文は、グローバル座標系における歩行者の位置と3次元(3-D)関節ボディポーズを予測することができるバイオメカニカルに触発されたリカレントニューラルネットワーク(Bio-LSTM)を提案しました。

入力は、車両のカメラや、GPSからのデータで、出力は、多人数線形モデルのパラメータで表される全身3Dメッシュ(下の画像のようなもの)です。

 

提案されたネットワークは、カメラから45 mまでの歩行者(都市交差点スケール)に対して、複数の歩行者のポーズと世界的な位置を同時に予測することができますが、車から最大7メートル離れた位置の予測で、予測の中央値誤差は、1秒後に約10 cm、6秒後に80 cm未満でした。

これにより、自動運転車周囲の歩行者(1人または複数)の体がどう動くかの次のステップと、次の場所を予測することをより正確に認識することを可能にします。

また今回の研究では、PedXデータセットという、歩行者の多い都市交差点で収集された大規模なデータセットを使用したとのこと。すなわち歩行者の多い交通量のある実際の都市の交差点という実際のシチュエーションに対する予測結果を示しています。

Bio-LSTMとは?

実は、前から米国では、人間の姿勢推定がかなり研究されています。しかしながら、以前の研究は主に2次元画像(静止画像)から人間の骨格の関節位置を推定することに焦点を当てていました。

例えば、2Dポーズの場合(下図)手首関節場所に非常に小さな違いがありますがこれは生物学的に存在しない体のポーズです。

 

一時停止の標識の数百万枚の写真を学習したコンピューターは、現実の世界でリアルタイムに一時停止の標識を認識するかもしれませんが、現実の世界で車が動いて相互作用するのであれば、歩行者がどこへ向かうのかという予測が、車が次に進むところと一致しないようにする必要があります。

つまり、車両に必要な予測力を持たせ、人間の歩行のペース(周期性)、手足の対称性、歩行中の安定性、足の配置の影響などを把握することが重要です。

他方、深層学習(LSTM)は、ビデオにおける将来のフレームを予測することに効果的であることがわかりました。
しかし、これらのアプローチはピクセル・レベルの予測に集中しており、人間のポーズ表現(スケルトンまたはメッシュ)ではあまり有用ではなかったとのこと。

 

そこで、本論文は、これらの問題に対して、BioLSTM(この仕事を解く生物力学的に啓示を受けた再発するニューラル・ネットワーク)を提案したとのこと。

Bio-LSTMでは、2-層積み重ねられたLSTMを使用します。 

ネットワークの入力は、場面の中のすべての歩行者のSMPLパラメータで、バイオ制約は、トレーニング目的を通して実施されました。そして、すべての時間スパンを予測するために、ネットワークに連続的にフィードバックされます。出力は、歩行者のポーズのフルボディ3Dメッシュです。

これにより、一時停止のサインかどうか―だけでなく、歩行者の身体が次のステップ、次のステップ、次のステップでどこにいるかを予測することが可能になりました。

まとめ

今回の研究は、交差点環境での行動とすべての歩行者(自転車以外の人)の予測結果の改善を示しました。

さらにこの研究は都市交差点での歩行者の姿勢予測に焦点を当てているため、トレーニングデータのノイズに強くスマートシティを管理・運営するのに役立つかもしれないとチームは述べています。また、二足歩行ロボットの研究とモニタリングへの応用、臨床歩行リハビリテーションシステムへの応用なども期待されているとのこと。

関連記事
LSTMを用いて心不全の発症を一年以上前に予測することが可能に
深層学習を用いた3D姿勢推定の学習