ついに出た!本当にDETR! 物体検出の革新的なパラダイム
3つの要点
✔️ ついにTransformerを物体検出に応用
✔️ End-to-endなモデルを実現し、人手による設計を削減
✔️ 物体検出を直接的な集合予測問題として再定義
End-to-End Object Detection with Transformers
written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
(Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3))
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)
はじめに
もはやコモディティ化し、様々なシーンで使われている物体検出、Yolo/SSDなどのモデルが量子化され、ラズパイのような小さなコンピューター上でも動作している時代になりました。
ここに、言語処理で一斉を風靡したTransformerを使った新しいパラダイムが登場しました。
DETR = DEtection TRansformer
構造的にも、CNNボディにTransformerをつなげた形になっています。
論文Fig. 1より、DETRの構成
CNNのあとにTransformer…一見すると単純につなげただけに見えますが、実験による比較も堅実で、考察も豊富な優れた論文でした。また、物体検出・Transformerどちらもノウハウが散見され、得るものが多い内容になっています。
加えてgithubで実装が公開され、学習済みモデルも用意され、すぐに試すことができます。そのスター数も既に 3.1k を超え(2020/6現在)、注目の高さが伺えるニューカマーです。
そのDETR、注目すべきポイントを見ていきましょう。
続きを読むには
(9268文字画像27枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー