TrackFormer！トランスフォーマーを用いたマルチオブジェクトのトラッキング

Transformer 2021年02月18日

3つの要点
✔️ トランスフォーマーを用いた物体検出と物体追跡の同時処理
✔️ ビデオフレーム間で情報を共有するための新しい概念である自己回帰型追跡クエリ
✔️ 複数ベンチマークでのSOTA

TrackFormer: Multi-Object Tracking with Transformers
written by Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer
(Submitted on 7 Jan 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs. CV)

はじめに

物体の追跡は、コンピュータビジョンや人工知能の重要なアプリケーションです。しかし、一度にいくつかの物体を追跡するのが得意な人間とは異なり、複数の独立した物体を同時に追跡できるシステムが必要です。これを実現するための一般的なアプローチは、まず、個々のビデオフレームから（CNNを使って）オブジェクトを検出し、次に、異なるフレームで検出されたオブジェクトを互いに関連付けるというものです。多くのマルチオブジェクトトラッキング(MOT)技術は、異なるフレームで検出されたオブジェクトをどのように関連付けるかが異なります。グラフ最適化、CNNを用いた画像間の類似度スコアの生成、回帰などです。

これまでのMOTモジュールでは、関連付けられたオブジェクトに変換器を使用していました。今回紹介するMOTモジュールTrackFormerは、物体の検出と関連付けを同時に行うためにトランスフォーマを使用しています。TrackFormerは、ビデオフレームを自動再帰的に関連付けることで、フレーム間でより多くの情報を共有することができ、閉塞した物体の識別や新しい物体の識別が可能になります。

トランスフォーマーを用いた検出

このモジュールはビデオからフレームレベルの特徴を抽出するためのCNNバックボーン（ResNetのようなもの）で構成されています。CNNから抽出された特徴量はトランスエンコーダーでエンコードされます。トランスフォーマデコーダでは、エンコーダからの情報を用いて出力エンベッディングがデコードされます。最後にデコーダのMLP層が、デコードされたエンベッディングをバウンディングボックスとクラス予測にマッピングする。ここまでが検出の概要になります。

トランスフォーマデコーダは、それぞれのフレーム内の可能性のある物体検出のためのN_obj物体エンベッディングを出力します。フレームの特徴は位置エンコーディングでエンコードされ、オブジェクトエンベッディングはN_objオブジェクトクエリでエンコードされます。位置エンコーディングとは異なり、オブジェクトクエリは学習されたパラメータであり、個々のオブジェクトの空間的特性を表現することができます。また、同じオブジェクトの複数の検出を防ぐことにも効果的です。

検出損失

デコーダは、バウンディングボックスb_iとクラス予測c_iからなる {y_i}_i=1~_Nobjを予測する。バウンディングボックスとクラス予測に基づく損失計算を用いて、これらの予測をground truthに一致させます。最小損失写像σˆは次のように与えられます。

損失C_matchが最小となるインデックスσˆが選択されます。損失C_matchは次式です。

ここで、第1項はクラスiの予測されたクラス確率であり、C_boxはバウンディングボックスの誤予測に対するペナルティであり、以下のように計算されます。

ここで、第1項はバウンディングボックスのL1距離を表し、第2項はGeneralize intersection over union cost(GIoU)である。ここで、λ_l1、λ_iouは各項に与えられる重みである。最適なσˆを求めた後、検出損失は以下のように計算することができます。

ここで、L_boxは、式(３)を用いて計算することができる。

追跡クエリ

追跡クエリは、隣接するフレーム間で空間情報と同一性情報を共有するために使用される追加のエンベッディングです。オブジェクトの追跡クエリは、継続的に更新されます。図に示すように、フレームt=0では、検出器はN_obj embeddingsを生成します。

各フレームｔ>０について、追加のエンベッディングは、オブジェクト検出、すなわちバックグラウンドではない検出をもたらすN_objエンベッディングのそれぞれについて生成されます。したがって、ｔ>０のための各デコーダステップは、オブジェクトおよび追跡クエリによって与えられたN_obj＋N_trackのエンベッディングをそれぞれ取ります。式(４)は、新しい目的関数を得るために少し修正され、下記のようになります。

これは、新しい目的関数が、新しいオブジェクトを検出し、既に検出されたオブジェクトをオーバーラップすることなく追跡することを意味しています。新しいオブジェクトはN_objエンベッディング上で検出され、N_trackはフレーム内にまだ存在する既に検出されたオブジェクトの情報を渡します。N_objは固定セットですが、N_trackは動的で、オブジェクトがシーンから抜けるとデクリメントしたり、新しいオブジェクトが発見されたときにインクリメントしたりします。 N_trackは、前のフレームt-1のオブジェクト検出に依存する。

前のフレームからのトラッククエリをオブジェクトクエリに連結する前に、それらは独立した自己注意ブロックを通過することによって変換されます。

学習

我々は、ビデオの2つの隣接するフレームを利用した2段階のトレーニングプロセスを採用しています。最初の画像は物体検出に用い、もう一方の画像は新たな物体の追跡・検出に用います。まず、(4)式を用いて物体検出の最適化を行い、次のステップでは(5)式で与えられた損失関数を用いて物体の追跡と新たな物体の検出を行います。

前述したように、フレーム内で検出された物体の対応するground truthを求めるために、特殊な二部写像技術を用いています。さて、N_trackのトラックアイデンティティをそれらのground truthにマッピングするために、オブジェクトのアイデンティティ情報を本質的に含まなければならない前のフレームからの追跡クエリを使用します。追跡クエリは、ground truthのラベルや背景クラスと一致する可能性があります。マッピングが見つからなかった場合は、新しいオブジェクトが検出されたので、二部作マッピング技術を使用してこのオブジェクトをマッピングすることができます。

Augmentations

1)モデルをロバストなものにするために、フレームt-1はフレームtに近いフレームの集合からサンプリングされる。

2)一般的に、フレーム内での新たな物体の検出数は比較的少ない。これを補うために、確率p_FNで追跡クエリをサンプリングし、デコーダステップに進む前にそれらを除去する。これにより、モデルはより効率的に新しいオブジェクトを検出することができる。

同様にモデルにオブジェクトの削除を教えるために、デコーダステップに進む前に確率p_FNで偽陽性の追跡クエリを追加する。

3) Random spatial jittering

実験

TrackFormerはTrack R-CNNやPointTrackのような最先端のモデルを凌駕し、MOT17とMOT20のデータセットでSOTAを得ることができます。以下にTrackFormerとTrack R-CNNのセグメンテーション結果の比較を示します。

TrackFormerは、より良い精度を達成することができます。

TrackFormerは困難なMOT17データセットにおいて、MOTA指標に基づいて他のすべてのモデルを凌駕しています。

また、MOTSAとIDF1に基づいたMOTS20データセットにおいて、TrackFormerはSOTAを達成しています。

実装の詳細については、原著論文を参照してください。

まとめ

トランスフォーマーは、機械翻訳、画像認識、3D点処理、さらにはマルチオブジェクト・トラッキングへと発展してきました。TrackFormerは、自己注意メカニズムを使用することで、エンド・ツー・エンドのマルチオブジェクト・トラッキングを可能にします。これにより、グラフ最適化のような追加操作が不要になります。TrackFormerは、困難なMOTS20とMOT17のデータセットにおいて、物体検出とセグメンテーションの両方のタスクで印象的な結果を得ており、その実力を証明しています。今後のMOTタスクへのself-attentionの応用にも期待したいところです。