Universal-Scaleの物体検出ベンチマーク

Object Detection 2021年05月11日

3つの要点
✔️ 物体検出法を確実に比較するための、ユニバーサルスケールの物体検出ベンチマーク(USB)
✔️ 新しい手法を評価するための、公平・簡単・スケーラブルなプロトコルセット
✔️ UniverseNetsと呼ばれる高速で正確なオブジェクト検出器は、いくつかのベンチマークでSOTAを獲得

USB: Universal-Scale Object Detection Benchmark
written by Yosuke Shinya
(Submitted on 25 Mar 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

人間は、風景や文章、絵画やアニメーションの中の物体など、さまざまなものを識別する能力を持っています。これは深層学習に持たせたい能力であり、この目的で長い道のりを歩んできました。大規模で情報量の多いデータセットはDNNにとって有益であり、物体検出用のDNNも例外ではありません。COCOデータセットは、物体検出において重要な役割を果たしています。COCOデータセットは、物体検出の新しい手法の開発と評価に広く利用されています。しかし、このデータセットにはいくつかの欠点があります。

COCOデータセットは、人間が知覚するのに必要な、物体のスケールや画像領域のバリエーションをカバーしていません。それにもかかわらず、いくつかの研究では、新しい手法が他のデータセットに一般化するかどうかを示さずに、COCOデータセットだけを使って評価しています。そのため、物体検出の学習と評価のための標準的なプロトコルを確立する必要があります。

本論文では物体検出手法の信頼性の高い比較を可能にするUSBと呼ばれるユニバーサルスケールの物体検出のための新しいベンチマークを紹介します。また新しい手法を公正かつ容易に、そしてスケーラブルに比較するための標準的なUSBプロトコルを確立しています。最後に、USBデータセットと新しいプロトコルを用いて、UniverseNetsと呼ばれる新しい物体検出モデルを学習し、いくつかの物体検出データセットのSOTAを大幅に改善します。

Universal-Scale Object Detection Benchmark(USB)

物体検出のベンチマークはいくつかあります。特定のカテゴリを対象としたWIDER FaceやTinyPerson、自律走行を対象としたKITTIやWOD、一般的な物体検出を対象としたPASCAL VOC(20クラス)やCOCO(80クラス)、人工的な画像を対象としたClipArt-1kやManga108-sなどがあります。Universal-domain object detection benchmark(UODB)は、様々な分野の11個のデータセットを組み合わせています。しかし同時に、物体のスケールのバリエーションがありません。

データセットUSBは、3つのデータセットで構成されています。COCO, Manga108-s, Waymo Open Dataset(WOD)の3つのデータセットで構成されています。UODBと比較して、ユニバーサルスケール、つまり小さな画像を含む多くのインスタンスを含むクラスに焦点を当てています。 Manga108とWODは、それぞれ人工的な画像とトラフィックの領域で多くの小さなオブジェクトから構成されています。WODデータセットでは、トレーニング用(f₀train)と検証用(f₀val)の分割から10%のサブセットを抽出し、それぞれ798と202の分割を行いました。各シーケンスは20フレームで、各フレームには5台のカメラで撮影された5枚の画像が含まれています。特に、車両、歩行者、自転車の3つのカテゴリーを使用しました。また、学習用(68train)、検証用(4val)、テスト用(15test)には、それぞれ68巻、4巻、15巻のマンガを厳選されています。

USB学習/評価プロトコル

USB学習プロトコルは上の表の通りです。AHPOはAgressive Hyperparameter Optimizationの略です。上位のプロトコルだけでなく、下位のプロトコルでも結果を報告する必要があります。例：AHPOで150エポックのモデルを学習した場合、USB3.0プロトコルに該当します。さらに、標準的なハイパーパラメータを用いて別のモデルを150エポックで学習し、150、73、24エポックの結果も報告する必要があります。

マスキングされたアノテーションで学習したモデルについては、プロトコルのバージョンに0.5を加えます。例：先ほどの例でマスキングされたアノテーションを使用した場合、プロトコルはUSB3.5となります。また、事前学習のデータセットはImageNetとUSBに限定しています。また、バッチサイズや学習率などのハイパーパラメータは、大まかにfinetuningすることもお勧めしています。AHPOを使用した場合、参加者はAHPOを使用した場合と使用しない場合の両方の結果を報告する必要があります。

上の表は、入力スケールを変えた場合のUSB評価プロトコルを示しています。Test-Time Augmentations(TTA)は、精度と推論時間に大きな違いをもたらします。そのため、TTAを使用した場合は、TTAの詳細と、TTAを使用しなかった場合の結果を報告する必要があります。

UniverseNets

UniverseNetはRetinaNetをベースに、iBNを使わずにATSSとSEPC（ATSEPCと呼ぶ）を加えて作られています。学習はマルチスケールで行い、テストはシングルスケールで行うことで効率化を図ります。UniverseNet-20.08dもDeformable Convolutional Networks(DCN)を多用したバージョンです。また、UniverseNet-20.08sでは、バックボーンにRes2Net-50-v1bではなく、ResNet-50-Cを用いて推論を高速化しています。

実験

このセクションでは、USBベンチマークとUniverseNetsを評価するためのいくつかの実験結果を紹介します。上の表は、デフォルトのハイパーパラメータを示しています。COCOで事前学習したモデルを使用し、FPN付きFaster R-CNN、Cascade RCNN、RetinaNet、ATSS、GFLを使用しました。さらに、これらのモデルのCNNバックボーンは、ImagNetで事前学習されています。

上の表は、様々なモデルのUSBでの結果を示しています。UniverseNet-20.08は、3つのデータセットすべてで最も素晴らしい結果を示し、mCAPスコア52.1を獲得しました。mCAPは、3つのデータセットの平均CAPスコアです。他の2つのデータセットではわずかな改善しか見られなかったのに、COCOデータセットでは大幅な改善が見られたモデルもあります。このように、USBはCOCOに偏った手法を明確にすることができます。

UniverseNetは、夜間の人物検出のベンチマークであるNightOwlsにおいて、新しいSOTAを設定することができました。この目的のために、WODで事前学習したモデルを、NightOwlsデータセットでfinetuningしました。実験の詳細については、原著論文をご参照ください。

まとめ

USBベンチマークに加えて、学習プロトコルと評価プロトコルを用いることで、物体検出におけるさまざまなモデルを比較する際の曖昧さを解消することに貢献しています。これにより、より優れたモデルが研究コミュニティや産業界から注目され、改良されていくことになります。UniverseNetの大きな欠点は、COCOで事前に学習されているため、データセットに偏りがあることです。今後の研究では、より偏りのないUniverseNetを開発することが求められます。この論文で述べられたプロトコルは、ビジョンやNLPの他のタスクにも応用することができます。