最新AI論文をキャッチアップ

コンピュータビジョンにおけるTransformerの全てがわかる!?Part5(動画理解・低ショット・クラスタリング・三次元解析編)

コンピュータビジョンにおけるTransformerの全てがわかる!?Part5(動画理解・低ショット・クラスタリング・三次元解析編)

Transformer

3つの要点
✔️コンピュータビジョンにおけるTransformerの応用例について解説
✔️動画理解・低ショット・クラスタリング・三次元解析タスクにおける研究例を解説
✔️総数37モデル、本記事では9つのモデルを解説

Transformers in Vision: A Survey
written by Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
(Submitted on 4 Jan 2021)
Comments: 24 pages
Subjects: Computer Vision and Pattern Recognition (cs.CV)
 

はじめに

Transformerは自然言語処理のみならず、多くの領域で高い性能を発揮しています。その中でも、視覚情報を取り扱うコンピュータビジョン分野におけるTransformerの応用研究が非常に盛んとなっています。

こうした需要を鑑み、コンピュータビジョンにおけるTransformerについて、非常に広範かつ詳細な解説を行います。

本記事では動画理解・低ショット・クラスタリング・三次元解析タスクにおけるTransformerの応用例について紹介します。

動画理解については四つ、低ショットタスクについては二つ、クラスタリングについては二つ、三次元解析については三つのモデルを解説しています。

その他のタスクについての研究例はPart2,3,4を、コンピュータビジョンにおけるTransformer全般にわたる説明はPart1をご覧ください。

全体の構成(目次)

1. コンピュータビジョンにおけるTransformerについて(Part1)

2. コンピュータビジョンにおけるTransformerの具体例(Part2~5)
  2.1 Transformers for Image Recognition(Part2)
  2.2 Transformers for Object Detection(Part2)
  2.3 Transformers for Segmentation(Part3)
  2.4 Transformers for Image Generation(Part3)
  2.5 Transformers for Low-level Vision(Part3)
  2.6 Transformers for Multi-modal Tasks(Part4)
  2.7 Video Understanding
    ・VideoBERT
    ・PEMT(Parameter Efficient Multi-modal Transformers)
    ・Video Action Transformer
    ・Skeleton-based Action Recognition
  2.8 Transformers in Low-shot Learning
    ・CrossTransformers
    ・FEAT(Few-shot Embedding Adaptation)
  2.9 Transformers for Clustering
    ・Set Transformers
  2.10 Transformers for 3D Analysis
    ・Point Transformer
    ・PCT(Point-cloud Transformer)
    ・METRO(Mesh Transformer)
3.コンピュータビジョンにおけるTransformerの課題と今後の展望(Part1)

続きを読むには

(12617文字画像23枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする