どんな人物も見逃さない。人混みの人物追跡に特化したモデルDensePedsが登場

論文:DensePeds: Pedestrian Tracking in Dense Crowds Using Front-RVO and Sparse Features

 

 

この論文では、非常に密集した場所(1メートルあたり2人以上の歩行者)で個人を追跡することに取り組んでいます。

密集した群衆から歩行者を追跡することは、AIにとっては依然として課題です。例えば、歩行者は衝突を避けるために横に避けたり、急に加速したりするため追跡が非常に難しく、さらに、正面のビデオでは、オクルージョン(手前にある物体が背後にある物体を隠している状態)や近接性などの問題もあります。

ほとんどのシステムは各歩行者のバウンティングボックスを計算しますが、これらのバウンティングボックスはしばしば重なり合い、追跡精度に影響を与えてしまいます。

論文では、これらを考慮した群集中の歩行者を効率的に追跡できるDensePedsという歩行者追跡アルゴリズムを提案しています。

 

FRVOとは

重要なのはFRVO(Frontal Reciprocal Velocity Obstacles)と呼ばれる新しいモーションモデルを採用している点です。

FRVOは従来モデルRVOを拡張したものとなっています。RVOは、円形の表現を使用して歩行者の頭部の形状をモデル化するというもので、人物を追跡する際、円状のバウンディングボックスを生成するため、人混みのようなシチュエーションでは人物同士にが複雑に重なりあってしまい追跡が困難となります(上図左)。

一方FRVOでは、面と上からの2つの視点で画像を捉えます。バウンディングボックスの円を幾何学的に極限近似を用いて計算し直すことで、重なり部分を取り除いた楕円状で表現します(右)。

逆に言えば、1人の人物を認識・追跡したい場合はシチュエーションによってはRVOの方が高い精度の場合があります。

DensePedsは最新のMASK R-CNNによる特徴抽出とこれらFRVOによる細かなバウンティングボックスの生成を組み合わせることで、より人混みの人物追跡に特化したモデルとなっています。

モデル概要

DensePedsでは、人物の占める特徴空間を最新のMASK R-CNNによって計算することで、人混みであってもムダなく人物を把握することで精度の向上を行なっています。また、訓練回数や最適化条件などを付け加えることなく、これらを達成しています。

また、加速や横へのステップなどの非線形(不規則って言った方がわかりやすいかな?)な動きの人物追跡に対応するために、衝突回避アルゴリズムであるFRVO(Frontal Recipocal Velocity Obstacles)を用いることで、人物の次の動き・速度を推定します。

歩行者の時刻t秒目のフレームを入力画像とし、MASK R-CNNを用いて各人物を認識し特徴空間を計算します。同時に、入力画像を用いてFRVOにおいてt+1秒後の歩行者の状態を予測し、同様にMASK R-CNNを用いて特徴空間を計算します。

計算された2つの特徴量空間から、各歩行者についてCNNを用いて特徴量を計算し、t秒目の情報を元に比較を行うことでt+1秒目の各歩行者にラベル付けを可能にしています。

結果

各列は指標を表しており、行ごとに各モデルの値となります。8つのデータセットを用いて実験を行い、平均した精度[%]を算出しました。

比較対象であるMOTDT, MDPはそれぞれ既存の人物追跡モデルです。指標についての詳細は後述しますが、基本的には右端のMOTAが総合的な追跡の精度を表しており、Dense Pedsは他モデルと比較して2.6~2.9%の精度向上がわかります。

また、ISD(人物の見逃し率)は、Dense Pedsが最も高くなってしまい、人物を見逃してしまっている可能性が高いことがわかります。すなわち、本モデルは個別の人に関する精密な認識には向いていないでしょう。より詳細には、各指標は以下の基準で数値を算出しています。

普遍的に活用可能なモデルが論文では多いですが、今回紹介したDense Pedsのような局所的な場面に特化したモデルは実用性が高く、我々の生活に良い影響を及ぼしてくれるでしょう。
例えば、日本では混雑時に犯罪などが行われるケースが多く、これらの解決に役立てることもできるかもしれません。

コメント

中村幸雄 Yukio NAKAMURA  @yukio_n_being
2019/06/29 18:09

人混みでの人物追跡に特化したAIモデル。従来は円によって歩行者の頭部を表すモデルを使用したが、人込みで各頭部を表す円が重なり合うため、人物追跡が困難であった。新たな方式では重なりを取り除いた楕円によって各頭部を表現。これによって人混みでの人物追跡精度が向上した。 https://t.co/acd39nm4TT