赶上最新的AI论文

卷积与变形金刚!进入下一阶段!视觉变换器,一种新的图像识别模型

卷积与变形金刚!进入下一阶段!视觉变换器,一种新的图像识别模型

Transformer

3つの要点
✔️ Transformerを使った新たな画像分類モデル
✔️ 入力には元の入力画像を分割し、パッチを作ることが特徴
✔️ 
最先端のCNNモデルと同等もしくは上回る結果を記録

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
written by 
Alexey DosovitskiyLucas BeyerAlexander KolesnikovDirk WeissenbornXiaohua ZhaiThomas UnterthinerMostafa DehghaniMatthias MindererGeorg HeigoldSylvain GellyJakob UszkoreitNeil Houlsby

(Submitted on 22 Oct 2020)
Comments: Accepted at arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
 
 Open In Colab 

はじめに

これまで存在していた画像分類モデルの多くは、畳み込みニューラルネット(CNN)が用いられていました。しかし、今回発表されたモデルは一切CNNを使わず、Transformerのみを使って構成されたモデルです。モデルの名前はVision Transformer (以下 ViT)と言います。

Transformerは、2017年に発表されてから、いまでは自然言語処理の分野においてファクトスタンダードとなっていましたが、画像処理の分野への応用は限られたものでした。どのようにして、Transformerを画像分類タスクに適応させることに成功したのか、そして注目のその精度はいかなるものなのかをまとめてみました。

Transformer


出典:Attention Is All You Need

Transformerは、もともとそれ自体が持つスケーラビリティが注目されていました。通常、モデルを大きくしたとしても学習が進まなくなることがありますが、Transformerはモデルが大きくなっても学習ができるという特徴があります。また、Transformerの計算能力を向上させるさまざまな研究も行われてきました。

ですが、Transformerが得意とするのは文章などのシーケンスデータ、すなわち連続性のあるデータです。さらにTrasformerは入力シーケンスの要素同士の類似度を計算するため、画像のピクセル単位で利用すると計算要素が膨大なものになってしまうのが欠点でした。(例えば224×224画素の画像を使うと、(224×224)2 = 2,517,630,976 分の計算が必要になります)これにより、Transformerが画像処理のタスクに適用されてきませんでした。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们