赶上最新的AI论文

如何在Vision Transformer中制作一个GPT-3级别?

Transformer

三个要点
✔️ 一种用于视觉变换器的自我监督学习(SSL)方法
✔️使用SSL方法学习一个强大的图像变换自动编码器和一个简单的线性解码器。
✔️在几个基准上比目前的SOTA模型提高了13.53%以上

SiT: Self-supervised vIsion Transformer
written by Sara AtitoMuhammad AwaisJosef Kittler
(Submitted on 8 Apr 2021)
Comments: Accepted to arXiv.

Subjects:  Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code: 
 

首先

像BERT这样的模型在NLP中成功的原因之一是,它们可以在非常大的无标记数据体上进行训练。另一方面,CNN和视觉变换器通常仅限于在大型监督数据上进行预训练。特别是,转化器往往需要极其庞大的数据集来执行。扩展这些数据集是一项相当昂贵的任务。为了解决这些限制,已经提出了几种自我监督学习(SSL)算法。

生成性SSL方法的计算成本很高,对于表征学习来说并不总是必要的。对比学习方法,即学习独立于数据扩展的表征,也非常成功。然而,对比学习并不能捕捉到上下文信息,因此,事实证明,诸如涂色、解谜和噪声预测等前文任务是有效的。此外,目前仍没有有效的SSL方法可以充分利用视觉转换的能力。

在本文中,我们提出了一种新的方法,结合了对比法和借口法的优点。该方法在多个数据集上将目前的技术水平提高了13.53%以上。

建议的方法

视觉转化器(ViT)学习瓶颈表征,其中内容和上下文表征以特殊 "类 "标记为中心。这严重限制了转化器对数据进行有效建模的能力,因此需要多个样本进行训练。因此,目前的目标是实现最先进的性能,同时减少标记的训练数据量。这种方法结合了模型、训练和学习任务的修改,每一项都将在下面的章节中描述。

自我监督的视觉变换器

 

基础模型是最近推出的Vision Transformer(ViT),它用两个新的标记取代了ViT的 "类 "标记,一个旋转标记和一个对比度标记,分别用于旋转变换预测和对比度预测的任务。 ViT的类与令牌一样,这些新令牌与图像补丁令牌相连接。如上图所示,位置嵌入与图像补丁标记一起被附加到这两个标记上。由于没有使用类标记,模型是在未标记的数据上训练的。这两个代币的作用将在下一节讨论。

自我监督的任务

1)在三个不同的任务上训练变形金刚。这些是图像重建、旋转预测和对比度学习。对于图像重建,他们训练Transformer的自动编码器,这是一个基于CNN的自动编码器,使用一系列的卷积层和池化层,在这个过程中丢弃内在的有价值的信息。然后,解码器通过上采样和卷积运算恢复信息。转化器被训练成重建扭曲的图像斑块,并在此过程中学习图像的语义概念。应用于连接斑块的局部变换操作包括随机丢弃和随机替换、模糊化、转换为灰度和重新着色。这些变化同时适用于所有图像。损失函数被计算为原始图像(x)和重建图像SiT(x')之间的L1损失。

2) T变压器我们将重建损失与其他补充性损失结合起来,利用了输入的图像被随机地旋转{0,90,180,270}度,并送入模型。该模型被训练为将输入的旋转分类到上述的一个类别中。这使得模型在理解图像中的物体的方向之前,就能学习到这个概念。交叉熵损失被用来计算预测误差。

3) T变换器模型必须对应用于输入图像的所有几何变换和扰动不发生变化。也就是说,在变频器模型必须为所有这些增强的图像产生一个类似的表示。具体来说,它应该测量余弦相似度,对于正的增强图像,余弦距离最大化,对于负的不相似图像,余弦距离最小化。我们衡量归一化的、按温度标度的softmax相似度如下

其中sim(. , .)代表其L2归一化输入的余弦相似度,而温度T被设定为0.5。

最后,他们通过对损失(α1,α2,α3)进行加权求和,将所有三种损失结合起来。通过网格搜索来优化这三个参数的成本很高。因此,他们使用一种叫做不确定性加权法的方法,将(α1,α2,α3)作为学习参数。

实验

实验是在四个流行的图像分类数据集上进行的。实验是在四个流行的图像分类数据集上进行的,即CIFAR-10、CIFAR-100、Tiny-ImageNet和CIFAR-100。STL-10,这是四个流行的图像分类数据集。在线性评价任务中,他们首先在未标记的数据上训练模型以学习表征,然后在所学特征的基础上调整一个与类的数量相对应的线性层。与需要复杂解码器的CNN模型不同,转化器模型用单一的线性层作为解码器就能很好地工作。他们还通过在Cifar-100中对无标签的图像进行训练,然后在CIFAR-10中调整模型,反之亦然,进行领域转移实验。 结果显示在下表中。

在所有的数据集上,SiT都以很大的优势超过了现有的方法。他们还将在CIFAR-10和CIFAR-100数据集上进行实验,看看所使用的标记数据量对模型的性能有何影响。

在本节中,我们展示了从不同来源(训练集、测试集和互联网)获得的原始图像(上行)、损坏的图像(中行)和重建的图像(下行)的样本图像。

摘要

在本文中,他们展示了如何通过最小化旋转损失、重建损失和对比度损失来成功地实现变压器作为图像自动编码器。这三种损失的选择以及它们对多任务学习的影响变频器多任务学习的自然能力使该方法在很大程度上超越了最先进的方法。虽然他们的工作主要集中在图像分类上,但它也可以扩展到其他视觉任务,如实例分割和物体检测。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们