变形金刚的未来愿景研究

Transformer 01/06/2021

三个要点
✔️ 一种用于计算机视觉的新型自监督学习算法
✔️ 与ViT（和CNN）高度兼容
✔️ 优于监督学习和其他SSL算法的表现

Emerging Properties in Self-Supervised Vision Transformers
written by Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin
(Submitted on 29 Apr 2021 (this version), latest version 24 May 2021 (v2))
Comments: accepted by arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

首先

转换器在计算机视觉领域也有很好的表现：Vision Transformer（ViT）的性能可与最先进的CNN模型媲美。然而，它的计算成本高，数据效率低。Vision Transformer（ViT）的性能与最先进的CNN模型相当，但它的计算成本高，数据效率低，使其成为CNN的不良选择。转换器与通常在有监督的数据上训练的视觉模型相比，NLP中的视觉模型是在一个大的语料库上使用自监督学习进行训练。我们认为，图像级别的教师将图像中包含的视觉信息减少为单一的概念，限制了转化器的能力。

在本文中，我们提出了一个使用自我监督学习训练的ViT，它具有一些监督ViT或CNN所不具备的有用特性。上面的图片显示了用无监督训练的ViT获得的结果。我们可以看到，该模型能够自动学习特定类别的特征。换句话说，它已经进行了无监督的分割。自监督转化器产生的特征对于一个简单的k-NN分类器来说表现得足够好，不需要微调或额外的数据，结果在ImageNet上获得了78.3%的最高准确率。

技术

这种方法，即DINO，代表了无标签蒸馏法。知识提炼是建立一个教师网络的过程(g_θt)，通过使用学生网络产生的预测结果(g_θs)是学习的过程。对于任何给定的输入图像x，两个网络都是P_s和P_t生成K维度上的概率分布，用以下代码表示这些分布使用温度T的softmax函数进行归一化。

现在让H(a,b)=-alog(b)。

首先，我们需要创建一些扭曲的观点/作物 'V'将被生成，其中V是两份文件中的视图数量。global-views{x₁^g,x₂^g}(覆盖50%以上的区域)和多个当地人的看法(农作物)包含G小叶子-观点是通过教师的，而本地视图是通过学生。因此，尽量减少

教师和学生网络都有相同的架构，但参数不同。在知识提取的情况下，教师模型通常是在有监督的数据上训练的，而这里我们只使用无监督的数据。在我们的实验中，我们发现将教师模型的参数更新为学生网络参数的指数移动平均值效果很好： λθt ← λθt +（1 - λ）θs。这里的λ是余弦，在训练期间调整为从0.996增加到1。

神经网络是在一个由ViT或ResNet组成的骨干F中创建的。骨干网产生的特征通过一个具有2048个隐藏维度的三层MLP，然后是一个L2归一化、权重归一化、K维的全连接层；与CNN不同，ViT不使用批量归一化，也不使用MLP头。因此，DINO是一个无BN模型。

避免崩溃

自我监督的学习模型往往容易崩溃和不公正。例如，两个模型可能在所有维度上统一预测相同的输出，或者输出可能只由一个维度主导；SSL方法使用对比损失、聚类约束和其他技术来防止这种崩溃。这些技术在DINO中同样可以应用，但只关注和磨练动力教师的输出的简单方法是有效的。

如上面的算法所示，只有教师网络的输出被居中和锐化，中心 "c "被更新为教师输出的指数移动平均值。锐化是通过降低教师的温度值（tpt）获得的。中心化避免了由于主导维度造成的衰减，但在所有维度上诱发了统一的输出。另一方面，锐化可以防止所有维度的统一预测，但会诱导某些维度成为主导。换句话说，这两者是相辅相成的。

实验和评估

所有模型都是在ImageNet数据集上训练的。我们主要使用三种不同的模式：ViT、ResNet(RN)和DeiT。按照自我监督学习的标准协议，我们通过训练一个具有固定模型参数的线性分类器来测试所训练的模型，并在下游任务中对模型进行微调。我们发现，这两种方法对超参数的变化都很敏感。因此，我们设定k=20，并使用k-NN分类器评估模型。

上表显示了用各种SSL算法训练的模型的结果，其中DINO对变压器（DeiT，ViT）和CNN（RN）同样有效。在下表中，使用8x8的补丁尺寸获得了最好的结果（80.1%），同时减少了前向传递的计算时间。 ViT-B/8与之前最先进的技术（SCLRv2）相比，速度快了1.4倍，参数数量只有十分之一。此外，DINO在视频物体分割、拷贝检测和图像检索等任务上实现了超越监督学习和其他SSL方法的过渡学习精度。关于这些实验的更多细节，请参考原始论文。

摘要

在本文中，我们表明DINO是一种学习ViT的有效方法。它是一种灵活的算法，能很好地与各种模型、数据增量和防衰技术配合。预先训练的BERT模型可以为各种NLP任务进行微调，DINO可以帮助建立类似BERT的模型，用于使用大量源图像数据的计算机视觉，而单个ViT可以在小数据集的各种任务中表现良好。小型数据集上的任务。