コンピュータビジョンにおけるTransformerの全てがわかる！　Part1/5(全体のまとめ・課題と展望)

Transformer 2021年01月22日

3つの要点
✔️コンピュータビジョンにおけるTransformerの応用例について解説
✔️様々なタスクに関連するモデル・手法について紹介
✔️Transformer in visionの課題や今後の展望について解説

Transformers in Vision: A Survey
written by Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
(Submitted on 4 Jan 2021)
Comments: 24 pages
Subjects: Computer Vision and Pattern Recognition (cs.CV)

はじめに

Transformerは自然言語処理のみならず、多くの領域で高い性能を発揮しています。その中でも、視覚情報を取り扱うコンピュータビジョン分野におけるTransformerの応用研究が非常に盛んとなっています。
こうした需要を鑑み、コンピュータビジョンにおけるTransformerの現状や今後の展望等についての包括的な解説を行います。

この記事ではコンピュータビジョンにおけるTransformer全般にわたる説明（過去に提案された手法の大まかな分類、現時点での課題や今後の展望など）を行います。Part2～5では、過去に提案されたコンピュータビジョンにおけるTransformerに関する各手法について、個別・具体的な解説を行います。

解説するTransformerモデルの総数は、なんと37個に及びます！

紹介する手法の中で最新のものは2020年12月に発表されたものであり、ごくごく最近の研究まで網羅しています。Transformerの画像・動画処理等への応用に興味のある方、具体的なモデルについての細かい知識を獲得したい方の手助けとなれば幸いです。

全体の構成(目次)

1. コンピュータビジョンにおけるTransformerについて
　・様々な手法の大まかな分類

2. コンピュータビジョンにおけるTransformerの具体例(詳細はPart2～5で解説)
　・Transformers for Image Recognition(Part2)
　・Transformers for Object Detection(Part2)
　・Transformers for Segmentation(Part3)
　・Transformers for Image Generation(Part3)
　・Transformers for Low-level Vision(Part3)
　・Transformers for Multi-modal Tasks(Part4)
　・Video Understanding(Part5)
　・Transformers in Low-shot Learning(Part5)
　・Transformers for Clustering(Part5)
　・Transformers for 3D Analysis(Part5)

3. コンピュータビジョンにおけるTransformerの課題と今後の展望
　・High Computational Cost
　・High Data Cost
　・Need for Novel Designs
　・Interpretability of Transformers
　・Hardware Efficient Designs
　・Is self-supervision the answer?

続きを読むには

(6600文字画像6枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または