Transformerを用いて経路予測のSoTAを達成！マルチモーダルで多様な経路予測が可能なmmTransformer

Transformer 2021年04月30日

3つの要点
✔️ Transformerを用いたモデルで自動車の経路を予測
✔️ マルチモーダルで多様性のある予測が可能に
✔️ 経路予測タスクにおいてSoTAを達成

Multimodal Motion Prediction with Stacked Transformers
written by Yicheng Liu, Jinghuai Zhang, Liangji Fang, Qinhong Jiang, Bolei Zhou
(Submitted on 22 Mar 2021 (v1), last revised 24 Mar 2021 (this version, v2))
Comments: Accepted to CVPR2021.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

はじめに

自分を含めた周囲の車両の未来の経路を予測することによって、自動運転社会における安全な社会が来ると想定しています。従来手法では、特徴量を変化させ潜在変数により確率的に経路の不確実性をモデル化することで、複数の予測候補を生成していました。しかし、潜在特徴量がデータ中に頻出するモード（自動車の種類）に集中してしまい、候補の提案を生成、選択するためには事前知識へ依存していました。つまり、事前分布の設定や上手く動く損失関数の設計の必要がありました。また、別のアプローチである提案ベースアプローチでは、予め考え得る経路を提案し正解の経路に減らしていく、もしくは識別することによって経路を予測していました。しかし、未知の経路に対するヒューリスティックなアプローチではないため設計者の事前知識が必要となり、１つの正解データだけではマルチモーダルな予測は保証できませんでした。

そのため、この論文ではtransformerを用いて複数のモードでの行動予測をend-to-endで行うMultiModal Transformer (mmTransformer)を提案。独立した経路の提案のそれぞれの特徴量レベルでのマルチモーダル性を実現するために、提案をランダムに初期化し、複数チャネルのコンテキスト情報を入力としてstacked transformerをベースとしたモデル（過去の経路、道路情報、社会的なインタラクション）を提案しました。提案で生成されたマルチモーダル性を引き継ぐためにregion-basedな学習戦略を使用（行動予測における複雑性を軽減）し、行動予測データセットであるArgoverseデータセットに対して実験を行い、SoTAを達成。提案経路を多様化し精度を向上することに成功しています。

Figure 1：マルチモーダルな行動予測の例

提案手法：mmTransformer

mmTransformerではユニモーダル性を改善するために、２つの機能を備えています。

行動予測を行うための経路提案メカニズムを提案
マルチモーダル性を保証するためのregion-basedな学習戦略（region-based training strategy: RTS）の提案

経路提案メカニズムでは、mmTransformerのエンコーダーから得られた複数チャネルのコンテキスト情報を非同期で集め、提案経路としてデコーダー内のクエリーに渡します。この提案は独立した特徴を有しているため、カスタマイズされた特徴量を持っており、これにより経路の多様性とマルチモーダル性が得られます。

一方RTSでは、周囲の空間をいくつかの領域にわけて提案領域を異なる集合としてグループ化し、提案経路の集合のみ正解データがある可能性のある領域に適用されます。これにより、それぞれの提案は他のモードの提案による潜在特徴量を考える必要なく、特定のモードのみを学習することが出来ます。

Figure 2：mmTransformerの概要

全体図は上記の通りで、mmTransformerはstacked transformerをバックボーンとして用いており、提案された経路からのコンテキスト情報を学習します。提案経路の特徴をデコードするデコーダー（Proposed Feature Decoder）は経路を生成し、経路生成器(trajectory generator)と選択器(trajectory selector)を用いてそれと対応する確度を出力します。ここで用いる経路生成器と選択器はtransformerで用いられるfeed forward networkと同じ構造です。

Stacked Transformer

Transformerは連続データに対して高い性能を誇ることが知られており、経路予測のタスクに適応させるためにはコンテキスト情報に対応する必要がありました。直感的な解決方法は過去の経路やレーン情報などのすべてのタイプの入力を連結し、連続するコンテストをエンコードしてtransformerに入力することが考えられます。しかし、transformerは固定サイズの入力を与える必要があるため、この方法だと莫大な計算能力が必要になります。さらに、異なるタイプの情報を連結しアテンション層に入力することになるため、潜在特徴量の性質が重要になってきます。

そのため、transformerのdecoderにおけるqueryを経路探索として扱うことで解決しています。この強みは、並列の経路の提案はエンコーダーからの情報を独立して統合することができ、disentangleなモダリティ情報としてそれぞれの経路の特徴量を保持することができる点です。stackの構造として、複数の特徴量抽出器に対して複数の入力を行うことができ、階層的に異なるコンテキスト情報を統合することができます。特にここでは、motion extractor、map aggregator、social constructorの３つのtransformerユニットで構成されています。

Motion extractorはターゲットとなる自動車の過去の経路をエンコードし、map aggregatorは道路の形状などの地理的、セマンティックな情報を地図から学習し、入力する提案経路の特徴を表現します。Social constructorはインタラクションを学習するために、すべての自動車の特徴を表現しています。アブレーションスタディと論理的な判断によって、motion extractor、map aggregator、social constructorの順に構成されています。

デコーダー

提案経路の特徴デコーダーは経路生成器と経路選択器から形成されており、K個のターゲット提案に対して、3層の多層パーセプトロンを用いて予測経路を生成しています。

Region-based Training Strategy

モデルのマルチモーダル性を保証するために、この研究ではRTSを提案し、提案経路がmode average problemに陥ることを防いでいます。mode average problemとは各モードを無視した結果を出力する問題で、歩行者が道路上を歩いたり、同様に自動車が歩道を走ったりすることを指します。この問題の妥当な解決方法として、final displacement errorの最小値と提案経路のみをもちいてregression lossとclassification lossを計算することがあげられています。これをベースラインとして考えます。

Figure 3：region-based学習戦略の概要

このベースラインでは多様性を確保するための提案経路が増えるほどモダリティが崩壊するという問題が存在します。そこで、提案経路をいくつかの空間的クラスタとしてグループ化するregion-based学習戦略（RTS）を提案しています。図にあるとおり、それぞれのシナリオでシーンを一定の角度で回転させて領域を分割させており、軸の中心は直前の経路の自動車の位置となっています。重複のないように分割した後、さらにK個の経路を提案し領域ごとに割りふることで、結果各領域ごとにN個の提案を考えることになります。学習下では、regression lossとclassification lossを用いており、ベースラインとは異なり、領域ごとにすべての提案経路に対して損失を計算しています。これにより、予測経路のマルチモーダル性が確保された結果が出力されています。

目的関数

上で説明した正しい領域に分割するためのRegression lossはそれぞれのステップにおいてHuber lossを用いており、Classification lossはクロスエントロピー損失を用いることでmmTransformer + RTSの学習の収束が速まることがわかりました。それぞれの予測経路のConfidenceスコアはエントロピーモデルの最大値を用いて計算しており、L2距離を用いて正解データと予測経路の距離を計算し、Kullback-Leibler Divergenceを損失関数として用いることで、この距離が近づくほどスコアが良くなるように設計しています。

推論時に、重複する（重複に近い）経路はnon-maximum suppressionアルゴリズム（物体検出の提案領域を削除するときによく使われるアルゴリズム）を用いて削除されています。

実験設定と結果

mmTransformerの性能を調べるために、5秒の経路とコンテキスト情報を含む画像34万枚を有するArgoverse行動予測ベンチマークをデータセットに用いた。過去の経路2秒分とコンテキストを入力とし、次の3秒の行動を予測することを目的としています。それぞれのシナリオでは、図のようにHDマップにあるセンターラインベースの連続する直線をローカルマップの情報として表現しています。加えて、自動車同士のインタラクションをモデル化するために、過去の経路と隣接する自動車の位置、自身の自動車が表現されています。

モデルの評価手法はAverage Displacement Error(ADE)とFinal Displacement Error(FDE)を用いており、マルチモーダル性を評価するために、トップK（K=6）の経路のmiss rate（MR）をADE、FDEの最小値を用いて比較しています。

Table 1：Argoverseのテストセットを用いた性能の比較 Table 2：mmTransformerでの異なるコンポーネントの効果を調べるためのアブレーションスタディ

実験はArgoverseデータセットのテストセットを用いています。まず、提案手法のmmTransformerとmmTransformer + RTSを比較しています。Table 2によると、mmTransformerはminADE、minFDEで精度が一番よく、RTSを加えるとMRが低くなっている（＝正しく予測出来ている）ことがわかります。次に、提案経路の数とそれぞれの提案モジュールをアブレーションスタディで比較しました。RTSなしの６提案mmTransformerではRTSなしの36提案mmTransformerに比べてminADE、minFDEともに精度が上がっていることがわかります。つまり、少ない数の提案を出力するように固定してしまうと、多様性の選択肢をあらかじめ捨てることとなり、精度は上がるもののＭＲが下がることが言えます。さらに、正解領域における選択された提案の数が少なくなると、minADEとminFDEの精度が落ちることもわかりました。この研究では、精度と多様性はトレードオフの関係性であると考えています。

Figure 4：mmTransformerを用いた定性的結果

次に、RTSでの空間の分割について評価します。RTSでは周囲の領域をいくつかの空間に分割していました。分割方法として、K-meansと人手による分割で実験を行っています。人手による分割では、Figure 3のような形で分割します。学習サンプルはデータのバランスに応じて均等に分割されます。領域の数に応じて、６つの領域に分割し、それぞれの領域に対して６つの提案を行っています。K-meansによる分割と比べて、人手による分割はあいまいなサンプルに対しても正しく分割でき、誤分割が少ない分学習精度が高いことがわかりました。今回は、均等に分割しただけであり、学習に重要な分割方法はまだわかっていません。

Figure 5：Argoverseを用いたマルチモーダル予測の可視化

図ではRTS（36分割）の可視化をおこなっています。右上のMR行列によると、セル$(i, j)$は領域$i$の中で領域$j$に含まれるケースを予測する提案のMRを表しています。それぞれの提案があらかじめ割り振っておいた領域に属する経路を生成していることがわかります。つまり、mmTransformerが領域ベースの学習によって、異なるモダリティを学習できていることを示しています。

まとめ

自動車の経路予測タスクにおいてTransformerを用いることでSoTAを達成しています。近年の動向からTransformerをバックボーンに使うことで精度が高くなると思われがちですが、Transformer単体では異なるレベルの入力に対応できず、コンテキスト情報を用いる経路予測においては不十分でした。そこでこの研究では、Transformerを情報に応じて使い分けることで複数チャネルの入力に対応させ、さらに提案経路を分割した領域ごとにわけることで、従来の問題点であったマルチモーダル性を含めた経路予測を達成しています。未来の経路は未知であるため、多様性が求められますが、予測精度とはトレードオフで予測時間の向上とともに更なる改善が求められます。