对象检测的创新模式
三个要点
✔️ 将变压器应用于对象检测。
✔️ 端到端模型,减少人工设计。
✔️ 将对象检测重新定义为直接集预测问题。
End-to-End Object Detection with Transformers
written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
(Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3))
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)
介绍
它已经不是商品了,各种场景下使用的物体检测、Yolo/SSD等模型已经被量化,现在运行在小到Raspy的电脑上。
这里有一个使用Transformer的新范式,已经风靡了语言处理。
DETR = DEtection TRansformer(变压器)
从结构上看,它是一个CNN体和一个连接CNN体的变压器。

图1 DETR的结构。
乍一看,这似乎是CNN和Transformer之间的简单联系,但这是一篇优秀的论文,有扎实的实验对比和大量的讨论。无论是物体检测还是变压器,都有很多的诀窍,从这篇论文中可以得到很多的启示。
此外,现在已经在github上提供了实现,并提供了一个训练好的模型供你马上试用。已经有3.1万多颗星了(截至2020年6月),这个新人是一个炙手可热的新人。
我们来看看那个DETR,以及值得注意的关键点。
第1点:端到端的理念
深度学习发展最常被引用的原因之一是端到端的学习,可以自动进行特征提取。
虽然这种"端到端理念"使机器翻译和语音识别取得了重大突破,但对于对象检测来说,它是一种有效的解决方案,其意义在于,人的设计因素仍然决定着性能。
物体检测中的人性化设计元素实例
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别