マスク R-CNN：画像内のオブジェクトを効率的に検出する

Computer Vision 2024年01月04日

3つの要点
✔️ オブジェクト検出のためのマルチタスク学習モデルであるMask R-CNNを提案しています。
✔️ モデルは高い精度で物体の位置、境界ボックス、セグメンテーション、キーポイントを同時に予測し、COCOデータセットで他の手法を上回る性能を示しています。
✔️ Mask R-CNNの柔軟性は、検出とセグメンテーションのタスクにおいて大きな進展をもたらし、高速で効果的なトレーニングが可能です。

Mask R-CNN
written by Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick
(Submitted on 20 Mar 2017 (v1), last revised 24 Jan 2018 (this version, v3))
Comments: open source; appendix on more results
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

Mask R-CNNは、オブジェクト検出と高品質なセグメンテーションを同時に実現するフレームワークで、Faster R-CNNを拡張します。トレーニングが容易で実行速度も高速であり、他のタスクにも適用可能です。COCOスイートの異なるトラックで上位の結果を示し、余分な機能がない場合でも他のモデルを凌駕します。シンプルで効果的なアプローチとして、将来の研究の基盤となります。

導入

前述したように、Mask R-CNNは、オブジェクト検出と高品質なセグメンテーションを同時に行う効果的で柔軟なフレームワークです。既存のFaster R-CNNにマスク予測ブランチを追加する形で拡張され、RoIAlignと呼ばれる新しいレイヤーが精密な位置合わせを提供します。Mask R-CNNはシンプルで高速な実行が可能で、COCOセグメンテーションタスクで従来のモデルを凌駕し、オブジェクト検出でも優れた性能を示します。柔軟性と正確性があり、将来の研究や複雑なタスクへの拡張に対して有望なフレームワークです。

R-CNN をマスクする

マスク R-CNNは、高速な R-CNNにオブジェクトマスク出力のブランチを追加したもので、候補オブジェクトごとにクラスラベル、境界ボックスオフセットとともにオブジェクトマスクも同時に予測します。この概念的に単純なアプローチは、主にピクセル間のアライメントなど、従来の手法が欠けていた詳細な空間レイアウトの抽出に貢献しています。

より高速な R-CNN

Faster R-CNNは、2つのステージから成り立ちます。最初の段階では領域提案ネットワーク（RPN）が候補オブジェクトの境界ボックスを提案し、第2段階ではFast R-CNNがこれらのボックスから特徴を抽出し、分類と境界ボックス回帰を行います。共有された機能を使用して推論を高速化します。

マスク R-CNN

マスク R-CNNは、Faster R-CNNと同じ初期段階（RPN）を採用し、第2段階では各RoIに対してクラスとボックスオフセットの予測と同時に、バイナリマスクも生成します。通常のシステムと異なり、クラスの予測とマスクの生成が分離され、トレーニング中にはクラスごとのマスクが競合することなく生成されます。これにより、優れたインスタンスセグメンテーションが実現されます。

マスク表現

マスクはオブジェクトの空間的な配置を表現します。通常のfc層と異なり、マスクは畳み込みによりピクセル間の対応を維持し、空間的な構造を自然に捉えます。従来の方法に比べてパラメータが少なく、正確性が向上しています。このピクセル間の動作を支えるため、著者たちはRoIAlignレイヤーを導入し、より正確でパラメータの少ないマスク予測を可能にしました。

RoIAlign

RoIPoolは通常、各RoIから小さな特徴マップを抽出する際に量子化を使用します。しかし、この量子化はピクセル単位のマスク予測に影響を与えます。提案されたRoIAlignレイヤーは、量子化を回避し、双線形内挿を用いて正確な特徴値を計算し、精緻なマスク予測を可能にします。RoIAlignはRoIPoolに比べて大幅な改善をもたらします。

ネットワークアーキテクチャ

著者は異なるアーキテクチャでマスク R-CNN を実装し、畳み込みバックボーンとネットワークヘッドを区別しました。ResNet-50やResNeXtなどのバックボーンに加え、Feature Pyramid Network (FPN) も採用し、FPNバックボーンを使用すると精度と速度が向上します。ネットワークヘッドは畳み込みマスク予測ブランチを拡張し、ResNet-C4バックボーンのヘッドにはResNetの5番目のステージが含まれ、FPNの場合はより効率的なヘッドが実現されます。

・実装の詳細

著者は、Fast/Faster R-CNNの研究に基づいてハイパーパラメータを設定し、画像中心のトレーニングや適切なサンプリング比率を用いてモデルをトレーニングしました。トレーニングにおいては、RoIはIoUが0.5以上の場合を陽性とし、マスク損失は正のRoIでのみ定義されます。推論時には、提案の数やマスクの処理などが最適化され、高速で精度の高い検出が可能です。

インスタンスのセグメンテーション

COCOデータセットにおいて、マスク R-CNNと他の最先端技術を包括的に比較し、標準的なメトリクス（AP、AP50、AP75、APS、APM、APLなど）で評価します。トレーニングは80,000のトレーニング画像と35,000のサブセットを用い、5,000の検証画像でアブレーションを報告します。結果はtest-devでも報告されます。

主な結果

表1では、Mask R-CNNがインスタンスセグメンテーションにおいて最先端の手法と比較され、ResNet-101-FPNバックボーンを備えたMask R-CNNが他のモデルを上回ることが示されています。視覚的な結果の一例も示され、Mask R-CNNが困難な条件下でも優れたパフォーマンスを発揮し、他の手法に比べてアーティファクトが少ないことが強調されています。

・アブレーション実験

マスク R-CNN を分析するために多数のアブレーションを実行します。結果を表 2 に示し、次に詳しく説明します。

建築

表2(a)では、異なるバックボーンを持つMask R-CNNの比較が示されています。より深いネットワークや高度な設計（FPNやResNeXtなど）が性能向上に寄与することが強調されていますが、全てのフレームワークがこれらの要素から同様に利益を得るわけではないことが指摘されています。

多項マスクと独立マスク

マスク R-CNNは、ボックスとクラスの予測を切り離しており、既存のボックスブランチがクラスラベルを予測するため、各クラスのマスクを競合せずに生成します。表2(b)では、この方法をピクセルごとのソフトマックスと多項損失と比較しています。代替案では、マスクとクラス予測のタスクが結合され、マスクの性能が低下します。これは、インスタンスが全体として分類されたら、カテゴリーを気にせずにバイナリマスクを予測するだけで十分であり、トレーニングが容易になることを示唆しています。

クラス固有のマスクとクラスに依存しないマスク

通常のインスタンス化では、各クラスに対して1つのm×mマスクが予測されます。面白いことに、クラス認識マスクを使用したMask R-CNN（つまり、クラスに依存せずに単一のm×m出力を予測する）でもほぼ同じ効果があります。分類とセグメンテーションを大幅に分離するアプローチにおいて、通常のマスクAPが29.7に対し、クラス固有の対応物は30.3となり、分業の強調が示唆されます。

RoIAlign

表2(c)では、著者たちが提案するRoIAlign層の評価が示されています。この実験では、ストライド16のResNet50-C4バックボーンを使用し、RoIAlignはRoIPoolよりも約3ポイントAPを向上させ、その多くの利点は高いIoU（AP75）で得られます。 RoIAlignは最大/平均プールの影響を受けず、また、同じく双線形サンプリングを採用するRoIWarpと比較しても優れています。さらに、大きなストライドを持つResNet-50-C5バックボーンを使用したRoIAlignも評価され、マスクAPを大幅に改善し、大きなストライド機能を使用することで検出とセグメンテーションの精度が向上することが示されています。

最後に、RoIAlignはFPNと組み合わせると、より細かいマルチレベルストライドを利用して1.5ポイントのマスクAPと0.5ポイントのボックスAPの向上を示します。特にキーポイント検出のように微細な位置合わせが必要な場合、RoIAlignはFPNを使用した際でも大きな精度向上を示します（表6）。

マスクブランチ

セグメンテーションはピクセル間のタスクであり、ResNet-50-FPNバックボーンを使用して、多層パーセプトロン（MLP）とFully Convolutional Network（FCN）を比較します。 FCNを使用すると、MLPよりも2.1ポイントのマスクAPの向上が得られます。公平な比較のため、このバックボーンではFCNヘッドのconv層が事前トレーニングされないように選択されました（表2e）。

・境界ボックスの検出結果

表3では、Mask R-CNNが最先端のCOCOバウンディングボックスオブジェクト検出と比較されています。ResNet-101-FPNおよびResNeXt-101-FPNを使用したMask R-CNNは、以前の最先端モデルを上回り、特にResNeXt-101-FPNは以前の最良の単一モデルエントリよりも3.0ポイントのボックスAP向上を達成しました。さらに、RoIAlignを使用したマスク R-CNNは、ボックス検出において小さなギャップがあるものの、RoIAlignなしのモデルよりも優れた性能を発揮します。この結果から、著者たちのアプローチはオブジェクト検出とインスタンスセグメンテーションの難易度の違いを効果的に埋めていることが示唆されます。

・タイミング

推論では、ResNet-101-FPNモデルがFaster R-CNNのトレーニングステップに従い、特徴を共有しています。このモデルは高速で、Nvidia Tesla M40 GPU上で約195ミリ秒で実行されます。トレーニングにおいても、ResNet-50-FPNを使用した場合は32時間、ResNet-101-FPNは44時間で完了し、高速なプロトタイピングが可能です。著者たちはこの迅速なトレーニングが研究を促進し、多くの人々がこの分野に取り組む手助けになることを期待しています。

人間の姿勢推定のためのマスク R-CNN

著者たちのフレームワークは、人間の姿勢推定にも適用可能です。ワンホットマスクを使用し、Mask R-CNNを利用して各キーポイントの位置を予測します。実験はマスク R-CNN フレームワークの柔軟性を示すもので、最小限の領域知識が必要です。キーポイントのトレーニングでは、各キーポイントに対するワンホットバイナリマスクを使用し、ソフトマックス出力に対するクロスエントロピー損失を最小限に抑えます。モデルは COCO trainval35k イメージでトレーニングされ、推論では 800 ピクセルの単一スケールを使用します。

主な結果とアブレーション

著者は人物キーポイント検出の性能を評価し、ResNet-50-FPNバックボーンを使用して実験しました。その結果、著者の手法はCOCO 2016のキーポイント検出の優勝者よりも0.9ポイント高い62.7のAPkpを達成し、シンプルで高速な方法として注目されています。さらに、ボックス、セグメント、キーポイントの同時予測が可能で、セグメントブランチを追加するとAPkpが63.1に向上します。

ボックスのみまたはキーポイントのみのバージョンにマスクブランチを追加すると、これらのタスクが改善しますが、キーポイントブランチを追加するとわずかにボックス/マスクAPが低下します。これは、キーポイント検出がマルチタスクトレーニングから利益を得る一方で、他のタスクには影響を与えないことを示唆しています。それにもかかわらず、3つのタスクを同時に学習することで、統合システムがすべての出力を同時に効率的に予測できるようになります。

また、キーポイント検出に対する RoIAlign の効果も調査します (表 6)。

ResNet-50-FPNバックボーンは細かいストライドを持ちますが、RoIAlignは引き続きRoIPoolに比べて優れた性能を発揮し、キーポイント検出のAPkpを4.4ポイント向上させます。これはキーポイント検出が高い位置特定の精度に敏感であることを示しており、Mask R-CNNがオブジェクトの境界ボックス、マスク、キーポイントの抽出に効果的なフレームワークであることが期待されます。

結論

この論文は、物体検出の分野で注目される「Mask R-CNN」モデルに焦点を当てています。Mask R-CNNは、物体の位置だけでなく、ピクセルレベルのセグメンテーションも行うため、複雑なタスクに適しています。この手法は、検出、セグメンテーション、キーポイント推定を同時に行い、多様なアプリケーションで高い性能を発揮します。人工知能の分野では、物体認識やセグメンテーションの進化に寄与し、実世界のコンピュータビジョン課題において優れた成果を上げているモデルの一例と言えます。

Mask R-CNNは物体検出とセグメンテーションの統合に成功し、多岐にわたるアプリケーションで優れた性能を発揮しています。今後は、モデルの効率性向上やリアルタイム処理の実現が期待されます。同時に、ドメイン適応や少ないラベルでのトレーニングに強いモデルの開発が重要です。物体検出技術が進化することで、自動運転車、医療画像解析、環境モニタリングなど、様々な領域での実用的な展開が見込まれます。