Bio-LSTM、自動運転車における歩行者の次の動きを全身3Dメッシュから推測

ミシガン大学の研究チームは、自動運転車において、既存の技術よりも高い精度で歩行者の動きを認識および予測するシステム「Bio-LSTM」を発表しました。これにより、自動運転車周囲の歩行者(1人または複数)の体がどう動くかの次のステップと、次の場所を予測することがより正確になりました

論文:Bio-LSTM: A Biomechanically Inspired RecurrentNeural Network for 3D Pedestrian Poseand Gait Prediction 

人間の物理的な制約を組み込んだ姿勢推定

現実の世界で車が動いて相互作用するのであれば、歩行者がどこへ向かうのかという予測が、車が次に進むところと一致しないようにする必要があります。

つまり、車両に必要な予測力を持たせ、人間の歩行のペース(周期性)、手足の対称性、歩行中の安定性、足の配置の影響などを把握することが重要です。これにより、車両は衝突を回避し、乗り心地と安全性を向上させることができます。

本論文では、そのような人間の物理的な制約、歩行周期性、四肢の鏡面対称性、歩行サイクルにおける地面反力(GRF)などの変化を目的関数として組み込んだ、Bio-LSTM(生体力学的触発リカレントニューラルネットワーク)を提案しています。

LSTMと姿勢推定

LSTMネットワークは、時系列データを扱うのが得意なため、シーケンス予測のための文献で広く使用されており、最近では、映像における将来のフレーム予測や姿勢推定にも適用されています。しかしながら、これらのアプローチはピクセル・レベルの予測に集中しており、人間のポーズ表現(骨格またはメッシュ)ではあまり有用ではなかったとのこと。
骨格を検出し2D画像上に重ねることによって視覚化するという方法もありますが、骨格ベースの方法だけでも人体の姿勢を正確に表すとは限りません(下図)。

例えば、手首関節場所に非常に小さな違いがありますがこれは生物学的に存在しない体のポーズです。正確な姿勢推定を行うには骨格に加えポーズを表すための3D全身メッシュを予測することが重要です。

本論文は、これらの問題に対して、グローバル座標系における歩行者の位置と、従来の骨格ベースの3Ð関節位置に加えて全身3Dメッシュを予測することができるBioLSTM(この仕事を解く生物力学的に啓示を受けた再発するニューラル・ネットワーク)を提案しました。

基本的なネットワークアーキテクチャとして、2層積層LSTMと、それに続く高密度接続ニューラルネットワーク(NN)層が実装されてます。そして、人間の歩行の生体力学的特性を考慮に入れるためにバイオ制約が実施されまてます。ここでは、生体力学的特性:歩行周期性、人体の鏡面対称性、および人間の歩行サイクルにおける地面反力(GRF)などの変化を、目的関数として組み入れています。これにより、次の動きを予測するための選択肢の数を減らし精度を高めます。

 

このモデルに車両のカメラや、GPSからのデータでを入力すると、ネットワークに連続的にフィードバックされ、歩行者のポーズのフルボディ3Dメッシュが出力されます。(下の画像のようなもの)

どうなったか

提案されたネットワークは、カメラから45 mまでの歩行者(都市交差点スケール)に対して、複数の歩行者のポーズと世界的な位置を同時に予測することができますが、車から最大7メートル離れた位置の予測で、予測の中央値誤差は、1秒後に約10 cm、6秒後に80 cm未満でした。

これにより、自動運転車周囲の歩行者(1人または複数)の体がどう動くかの次のステップと、次の場所を予測することをより正確に認識することを可能になりました。

また今回の研究では、PedXデータセットという、歩行者の多い都市交差点で収集された大規模なデータセットを使用したとのことで、すなわち歩行者の多い交通量のある実際の都市の交差点という実際のシチュエーションに対する予測結果を示しています。

さらにこの研究は都市交差点での歩行者の姿勢予測に焦点を当てているため、トレーニングデータのノイズに強くスマートシティを管理・運営するのに役立つかもしれません。また、二足歩行ロボットの研究とモニタリングへの応用、臨床歩行リハビリテーションシステムへの応用なども期待されています。

関連記事
LSTMを用いて心不全の発症を一年以上前に予測することが可能に
深層学習を用いた3D姿勢推定の学習

この記事をシェアする