物体検出の新しいパラダイム:必要なのはセグメンテーションだけ

【翻訳】Segmentation Is All You Need

物体検出は実生活で最も広く採用されているタスクの1つです。しかし極端なケースが常に発生します。例えば、複雑なオクルージョン(図1(a))、劣悪な照明条件(図 1(b))、小さな対象物(図 1(c))のような両極端に遭遇すると、現在最も広く採用されているアプリケーションでも容認できないほど精度は低くなってしまいます。

こういった課題に対して、最も広く採用されているアプローチは、NMS(Non-Maximum Suppression)と呼ばれる手法です。一言で説明すると、NMSとは、同じクラスとして認識された重なっている状態の領域を抑制するためのアルゴリズムです。画像内に潜在的なバウンティングボックスを生成し、次いでこれらの提案されたバウンティングボックスに対して分類器を実行し、最良なバウンティングボックスを選びます。

この方法は、ターゲット検出の分野での戦略として長年使用されてきました。

しかし、バウンティングボックスには、大量の背景ピクセルがフレームが入りこみます。さらに、無関係な情報や照明やオクルージョンは、非常に強いノイズとして扱われる可能性があり、結局、物事をフレーミングするための評価ツールとしてバウンティングボックスを使用することは本質的にロバストではありません。

本研究では、従来モデルよりも高精度かつロバストな物体検出性能を行うため、マルチモーダルアノテーションとセグメンテーションを組み合わせることで、複雑な環境においても的確に物体を認識するモデルを提案しています。

 

モデル


図2:バウンティングボックスの注釈をマルチモーダルアノテーションに変換する最初のステップ

図3:トレーニングフェーズ

トレーニングでは、図3に示すように、バウンティングボックス情報を用いて、3つのチャネルを持つマスクに変換するようにモデルを学習させていきます。この時、原画図をそれぞれ、内部情報、輪郭 重複している部分にわけてマスクするようアノテーション(注釈付け)を行います。

 

図4テストフェーズ

テストフェーズでは、十分にトレーニングされたセグメンテーションモデルを利用して、画像から、内部、境界、重複部分に関するピクセルレベルのマスキング情報を取得し、マルチモーダル・ヒートマップとして表します。

図4のとおり、上から、人物の全体のヒートマップと、2番目に、重複を許した時の各人物の境界線のヒートマップ、3番目に、重複している部分のヒートマップを計算したものを示しています。

2番めから3番目の重複部分を引いてあげ、1番目のヒートマップを加えることで、各人物の内部が、重複を許さず、塗りつぶされたヒートマップ状態で出力されます(下図参照)。

その画像を元に、各人物の領域に接する四角形をバウンティングボックス として扱います。

 

結果

 

このようなセグメンテーションを導入することによって、モデルは、オクルージョン(手前にある物体が背後にある物体を隠して見えないようにする状態)問題を軽減することができます。さらに、ピクセルレベルの注釈を使用して、シーン内の小さなオブジェクトを適切に記述し、ノイズを大幅に減らすことができます。

 

次の画像は、ターゲットのバウンティングボックスをピクセルレベルのマルチモーダルアノテーションに変換したものです。

画像には、次のように複雑な重複が出ることが多々ありますか、このアプローチを取り入れることで、正確にバウンティングボックボックスを予測できるようになります。

 

・評価

下の図は、以前の手法と結果を比較したものです。最小パラメータの条件下で最高の精度を持ち、ターゲット検出における最先端のモデルCascade RCNNを超えていることがわかります。

 

WIDERFACEのような極端なデータセットでも、モデルは非常によく機能しています。

こちらはCOCOデータセット上での比較を行ったものです。Mask RCNNとCascade R-CNNに匹敵する精度を達成しています。今回のような方法は出てきたばかりなので、まだまだ改善の余地はありそうです。