コンピュータビジョンにおけるTransformerの全てがわかる!?Part2/5(画像認識・物体検出編)
3つの要点
✔️コンピュータビジョンにおけるTransformerの応用例について解説
✔️画像認識・物体検出タスクにおける研究例を解説
✔️総数37モデル、本記事では9つのモデルを解説
Transformers in Vision: A Survey
written by Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
(Submitted on 4 Jan 2021)
Comments: 24 pages
Subjects: Computer Vision and Pattern Recognition (cs.CV)
はじめに
Transformerは自然言語処理のみならず、多くの領域で高い性能を発揮しています。その中でも、視覚情報を取り扱うコンピュータビジョン分野におけるTransformerの応用研究が非常に盛んとなっています。こうした需要を鑑み、コンピュータビジョンにおけるTransformerについて、非常に広範かつ詳細な解説を行います。 本記事では画像認識・物体検出タスクにおけるTransformerの応用例について紹介します。
画像認識については七つ、物体検出については二つのモデルを解説しています。
その他のタスクについての研究例はPart3,4,5を、コンピュータビジョンにおけるTransformer全般にわたる説明はPart1をご覧ください。
全体の構成(目次)
1. コンピュータビジョンにおけるTransformerについて(Part1)
2. コンピュータビジョンにおけるTransformerの具体例
2.1 Transformers for Image Recognition
・CCNet(Criss-cross Attention)
・Stand-alone Self-Attention
・Local Relation Networks
・Attention Augmented Convolutional Networks
・Vectorized Self-Attention
・ViT(Vision Transformer)
・DeiT(Data-efficient image Transformers)
2.2 Transformers for Object Detection
・DETR(Detection Transformer)
・D-DETR(Deformable DETR)
2.3 Transformers for Segmentation
2.4 Transformers for Image Generation
2.5 Transformers for Low-level Vision(Part3)
2.6 Transformers for Multi-modal Tasks(Part3)
2.7 Video Understanding(Part4)
2.8 Transformers in Low-shot Learning(Part4)
2.9 Transformers for Clustering(Part4)
2.10 Transformers for 3D Analysis(Part4)
3.コンピュータビジョンにおけるTransformerの課題と今後の展望(Part1)
続きを読むには
(8260文字画像14枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー