ついに出た!本当にDETR! 物体検出の革新的なパラダイム

ついに出た!本当にDETR! 物体検出の革新的なパラダイム

3つの要点
✔️ ついにTransformerを物体検出に応用
✔️ End-to-endなモデルを実現し、人手による設計を削減

✔️ 物体検出を直接的な集合予測問題として再定義

End-to-End Object Detection with Transformers
written by Nicolas CarionFrancisco MassaGabriel SynnaeveNicolas UsunierAlexander KirillovSergey Zagoruyko
(Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3))

Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)

はじめに

もはやコモディティ化し、様々なシーンで使われている物体検出、Yolo/SSDなどのモデルが量子化され、ラズパイのような小さなコンピューター上でも動作している時代になりました。
 
ここに、言語処理で一斉を風靡したTransformerを使った新しいパラダイムが登場しました。
 
DETR = DEtection TRansformer
 
構造的にも、CNNボディにTransformerをつなげた形になっています。
論文Fig. 1より、DETRの構成
CNNのあとにTransformer…一見すると単純につなげただけに見えますが、実験による比較も堅実で、考察も豊富な優れた論文でした。また、物体検出・Transformerどちらもノウハウが散見され、得るものが多い内容になっています。
加えてgithubで実装が公開され、学習済みモデルも用意され、すぐに試すことができます。そのスター数も既に 3.1k を超え(2020/6現在)、注目の高さが伺えるニューカマーです。
 
そのDETR、注目すべきポイントを見ていきましょう。

この記事をシェアする