コンピュータビジョンにおけるTransformerの全てがわかる！？Partt3/5(セグメンテーション・画像生成・低レベル視覚タスク編)

Transformer 2021年01月26日

3つの要点
✔️コンピュータビジョンにおけるTransformerの応用例について解説
✔️セグメンテーション・画像生成・低レベル視覚タスクにおける研究例を解説
✔️総数37モデル、本記事では9つのモデルを解説

Transformers in Vision: A Survey
written by Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
(Submitted on 4 Jan 2021)
Comments: 24 pages
Subjects: Computer Vision and Pattern Recognition (cs.CV)

はじめに

Transformerは自然言語処理のみならず、多くの領域で高い性能を発揮しています。その中でも、視覚情報を取り扱うコンピュータビジョン分野におけるTransformerの応用研究が非常に盛んとなっています。

こうした需要を鑑み、コンピュータビジョンにおけるTransformerについて、非常に広範かつ詳細な解説を行います。

本記事ではセグメンテーション・画像生成・低レベル視覚タスクにおけるTransformerの応用例について紹介します。

セグメンテーションについては二つ、画像生成については四つ、低レベル視覚タスクについては三つのモデルを解説しています。

その他のタスクについての研究例はPart2,4,5を、コンピュータビジョンにおけるTransformer全般にわたる説明はPart1をご覧ください。

全体の構成(目次)

1. コンピュータビジョンにおけるTransformerについて(Part1)

2. コンピュータビジョンにおけるTransformerの具体例(Part2～5)
2.1 Transformers for Image Recognition(Part2)
2.2 Transformers for Object Detection(Part2)
2.3 Transformers for Segmentation
・Axial-attention for Panoptic Segmentation
・CMSA(Cross-modal Self-Attention)
2.4 Transformers for Image Generation
・iGPT(Image GPT)
・Image Transformer
・High-resolution Image Synthesis
・SceneFormer
2.5 Transformers for Low-level Vision
・TTSR(Texture Transformer Network for Image Super-Resolution)
・IPT(Image Processing Transformer)
・ColTran(Colorization Transformer)
2.6 Transformers for Multi-modal Tasks(Part4)
2.7 Video Understanding(Part5)
2.8 Transformers in Low-shot Learning(Part5)
2.9 Transformers for Clustering(Part5)
2.10 Transformers for 3D Analysis(Part5)