你需要知道的关于计算机视觉中变压器的一切!第4/5部分(多式联运任务)

Transformer 27/01/2021

3个要点
✔️解释Transformer在计算机视觉中的应用。
✔️讲解分割、图像生成和低级视觉任务的研究实例。
✔️共37款，本文介绍了9款。

Transformers in Vision: A Survey
written by Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
(Submitted on 4 Jan 2021)
Comments: 24 pages
Subjects: Computer Vision and Pattern Recognition (cs.CV)

首先

Transformer不仅在自然语言处理方面表现出了很高的性能，在其他很多领域也表现出了很高的性能。其中，变压器在处理视觉信息的计算机视觉领域的应用研究已经非常普及。

鉴于这种需求，我们将对计算机视觉中的Transformer进行非常广泛和详细的描述。

本文将介绍Transformer在多模态任务中的应用。

共介绍了9种多模态任务的模型。

关于其他任务的研究实例，请参见第2、3、5部分，关于计算机视觉中变压器的一般描述，请参见第1部分。

总体结构（目录）

1. about Transformer in Computer Vision (explained in Part1)

2. A Concrete Example of Transformer in Computer Vision(Part2～5)
2.1 Transformers for Image Recognition(Part2)
2.2 Transformers for Object Detection(Part2)
2.3 Transformers for Segmentation(Part3)
2.4 Transformers for Image Generation(Part3)
2.5 Transformers for Low-level Vision(Part3)
2.6 Transformers for Multi-modal Tasks
・ViLBERT(Vision and Language BERT)
・LXMERT
・VisualBERT
・VL-BERT
・Unicoder-VL(Universal Encoder for Vision and Language)
・UNITER
・OSCAR(Object-Semantics Aligned Pre-training)(
・Vokenization
・Vision-and-Language Navigation
2.7 Video Understanding(Part5)
2.8 Transformers in Low-shot Learning(Part5)
2.9 Transformers for Clustering(Part5)
2.10 Transformers for 3D Analysis(Part5)