つにリアルタイムでも実現可能に！

Video Object Segmentation 2021年03月24日

3つの要点
✔️ 効率的なリアルタイムビデオの物体セグメンテーションモデル
✔️ 2つの新しいコンセプト：Pixel Adaptive Memory と Light Aggregation Encoderで、従来の SOTA モデルが抱えていた問題を解決
✔️ 2つのVideo Object Segmentation DatasetsにおけるSOTA性能

SwiftNet: Real-time Video Object Segmentation
written by Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai
(Submitted on 9 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

リアルタイム Video Object Segmentation(VOS)では、最初のフレームの初期アノテーションが与えられたときに、ビデオの全フレームをセグメント化するモデルを目指します。しかし、効率的なリアルタイムVOSを実現するためには、様々な工夫がなされています。以下の図の赤線の右側は、リアルタイムVOSに必要なフレームレートで動作可能な現在のモデルを示していますが、非常に数が少なく、精度も高くありません。

上記のモデルのほとんどは、速度を犠牲にして、セグメンテーションの精度を向上させることに重点を置いています。メモリベースのモデルの中には、すべての履歴フレームと非ローカルな参照クエリのマッチングを利用するものがあります。これらのアプローチは非常に正確であるにもかかわらず、セグメンテーション自体が遅くなります。セグメンテーションの速度を向上させるためにいくつかの方法が採用されていますが、リアルタイムVOSのニーズを満たすには至っていません。つまり、効率と精度の間にはトレードオフがあるということです。

結論では本論文では、時空間的な冗長性がリアルタイムVOSを遅くするボトルネックであることを明らかにしました。この問題を解決するために、PAM(Pixel-Adaptive Memory)を導入しました。PAMは、ピクセル単位での更新と照合を行うバリエーション・アウェア・トリガーで構成されています。これにより、提案モデルSwiftNetは、リアルタイムVOSの壁を打ち破り、いくつかのベンチマークで記録と優れた性能を示すことができました。

背景情報

ワンショットVOSのタスクは、オブジェクトのセグメンテーションと、セグメンテーションされたオブジェクトのフレーム内でのマッチングという2つの部分で構成されています。オブジェクトのセグメンテーションは、ほとんどのモジュールで多かれ少なかれ似ています。モジュールによって、参照モデリングと参照クエリのマッチング戦略が異なります。

最後の参照フレームモデリング法では、現在のフレーム内の対応するオブジェクトを決定するために、最後のフレームまたは最初のフレームが参照として使用されます(複数可)。この方法は、セグメンテーションのコストが低いため高速ですが、フレームからのオブジェクトの追加/削除(オブジェクトの変化)には効果的ではありません。

オールフレーム・アプローチでは、過去のすべてのフレームのデータを使用するため、精度は高くなりますが、速度は遅くなります。また、STMモデルのように、RNNを用いてネットワークに関連情報を伝達する方法もあります。このようなモデルは、時間的な情報を伝搬するので、物体の変化に対して非常に効果的です。リファレンス・クエリー・マッチング戦略では、通常、CNN、相互相関、または非局所的な計算を用いてオブジェクト間の類似性を測定する。

SwiftNet

オブジェクト O = [o₁,o₂,...o_n]を含むフレーム V= [x₁,x₂...x_n]を持つビデオシーケンスの場合、マスクy_tでアノテーションされた現在のフレームをx_tとする。全ての前のフレームV_t-1とそのマスク[y₁,y₂...y_t-1]からの履歴情報を用いて、フレーム t-1までのモデルM_t-1を以下のように確立する。

ここで、Iはフレームtがモデリングに使われるかどうかを示す関数、EnRは情報を抽出するリファレンスエンコーダ、φはオブジェクトモデリングプロセスである。次に以下のようにして、物体定位マップI_tを生成する。

EnQはフレームクエリエンコーダ、γはx_tのエンコーディング内のM_t-1を検索するピクセル単位のクエリマッチング関数を示す。

上の図に示すように、x_tは最初にクエリエンコーダを通過します。エンコーディングは現在のモデルと照合され、ローカライゼーション・マップI_tが生成される。ローカライゼーション・マップとクエリ・エンコーディングはデコーダに通され、マスクy_tが得られる。マスクが得られると、x_t、y_t、x_t−1、y_t−1がバリエーションを考慮したトリガーに渡されます。トリガーが作動した場合、つまり画像に変動があった場合、それらはLAEに渡され、ピクセル単位のメモリ更新が行われます。このプロセスの詳細については、次のセクションで説明します。

Pixel Adaptive Memory (PAM)

PAMは3つの部分で構成されており、それぞれの部分について以下に説明します。

1) Variation-Aware Trigger(VAT)

また、時間的な冗長性を圧縮するために、過去の情報を含めることにします。VATモジュールは、連続するフレームのペアごとにフレーム間の変動を評価し、蓄積された変動がある閾値に達したときにメモリの更新が行われます。各ピクセルiのマスクと画像の変動を以下のように計算します。

そして、各ピクセルにおいて、全体の走行変動Pを次のように更新します。

閾値th_fとth_mはハイパーパラメータです。PがPthを超えると、そのフレームのメモリ更新のトリガーとなります。

2) Pixel-Wise Memory Update

フレームx_tが更新のためにトリガされるたびに、メモリBtからの変動が大きいピクセルが最初に発見されます。EnRはx_tを次元(HxWxC/8)のキーフィーチャーK_Q,tと次元(HxWxC/2)のバリューフィーチャーV_Q,tにエンコードする。より浅いキーフィーチャーは、効率的なマッピングに役立つ。また、k_t個のピクセルを含むメモリB_tは、次元(k_txC/8)のK_R,tと次元(k_txC/2)のV_R,tにエンコードされる。次に、K_Q,tをフラット化して、以下のようにコサイン類似度を計算します。

画素の類似性ベクトルは、行列Sのi行目の最大の類似性値として、以下のように計算されます。

Vp,tはソートされ、メモリ内の特徴から最も変化を示す上位β (~10%) パーセントのピクセルが取られます。そして、対応するKQ,tとVQ,tが直接メモリBに追加されます。

3) Pixel-Wise Memory Match

ローカライズマップI_tとクエリ値V_Qをデコードし、フレームのマスクを得る。上図に示すように、局在化マップを生成するために、K_Q,t 、K_R,tはそれぞれHWxC/8, C/8xKの大きさに整形され、その後ドットプロダクトの類似性を利用してI_tを算出します。このドットプロダクトをソフトマックス関数に通し、メモリ値V_R,tと掛け合わせます。結果として得られたHWxC/2行列はV_R,tと連結され、活性化された特徴V_Dが得られ、これがデコーダに渡されます。

この方法により、冗長なピクセルがすべて除去され、Iのサイズは、過去のフレームとピクセルがすべて使用された場合のHWxHWTと比較して、HWxKに縮小されます。これにより、SwiftNetは最近の他のモデルに比べて高速化されています。

Light Aggregation Encoder

EnQもEnRも、特徴抽出にResNetsを使用しています。EnRは、入力画像から特徴を抽出するだけでなく、フレーム・マスクの集約も行う。画像とマスクを連結して符号化することもできるが、その場合は画像フレームを2回、EnQとEnRにそれぞれ1回ずつ通す必要がある。x_tをEnQとEnRで別々に符号化していた以前のアプローチとは異なり、EnQが画像に対して生成した特徴マップはSwiftNetのEnRで利用される。これにより、SwiftNetは非常に効率的になります。

フレームマスクの集約には、上の図に示すような新しい光集約エンコーダを使用します。上段の青いキュボイドはEnQの特徴マップバッファを表し、下段の緑のキュボイドは入力マスクの特徴マップを表している。垂直方向に並んだ特徴は同じ大きさで、連結されている。入力マスクの特徴変換では、ダウンサンプリングにReversed Sub-pixel（RSP）、チャンネル調整に1x1 convを使用しています。RSPは、情報をあまり失わずにダウンサンプリングを行うことができます。

Reversed Sub-Pixel Downsampling

評価

Segmentation Results produced by SwiftNets on DAVIS-17

ResNet-18とResNet-50をバックボーンに持つSwiftNetモデルを、DAVIS 2017とYouTube-VOSデータセットでテストした。使用された指標は、セグメンテーション精度にはJaccard類似度指数（J）と平均境界Fスコア（F）、それらの平均値（J & F）、セグメンテーション速度を測定するためのFrames-Per-Second（FPS）です。

上の表は、DAVIS-2017データセットでの結果です。

上の表は、YouTube-VOSデータセットでの結果です。sとuは見たことのあるクラスと見たことのないクラス、Gは総合スコア、OLはオンライン学習を表します。どちらのデータセットにおいても、SwiftNetは他のSOTAモデルと比較して高い精度と速度を示しています。SwiftNetは、YouTube VOSデータセットの未見クラスのJスコアでのみ遅れをとっています。

実験のセットアップやアブレーションの詳細については、論文を参照してください。

結論

本論文では、2つの新しい手法を紹介しました。本論文では、従来のVOSモデルにおける速度と精度のトレードオフの問題を解決するために、Pixel Adaptive MemoryとLight Aggregation Encoderという2つの新しい手法を導入しました。PAMは、リアルタイムVOSモデルのボトルネックとなっていた、マッチングベースのVOSにおける時空間的な冗長性の問題を解決しました。このようにして、本論文は、VOSにおける将来の研究成果のための強力なベースラインを構築しました。SwiftNetは、その互換性のある速度により、高効率であり、また、実世界のアプリケーションに適しています。