赶上最新的AI论文

IBOT旨在通过自我蒸馏实现CV BERT的目标

Transformer

三个要点
✔️ 展示ViT的图像标记器的重要性
✔️ 学习ViT的图像标记器,通过自我蒸馏实现端到端屏蔽图像建模。
✔️ 在ImageNet-1K上取得SOTA,与MAE竞争图像识别领域的BERT地位

iBOT: Image BERT Pre-Training with Online Tokenizer
written by Jinghao ZhouChen WeiHuiyu WangWei ShenCihang XieAlan YuilleTao Kong
(Submitted on 15 Nov 2021 (v1), last revised 9 Dec 2021 (this version, v2))
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。

简介

变换器(BERT)在自然语言处理中的巨大成功,加速了将变换器引入图像识别的研究,包括视觉变换器。特别是,受掩码语言建模(MLM)的启发,这是BERT、MAE(最终在图像识别中的BERT?关于MAE)最近已经出版。

在MLM中,标记器是一种非常重要的技术,用于将单词投射到一个有意义的潜在空间。同样,在MIM中,有必要研究需要什么样的标记器来将图像斑块投射到一个有意义的潜在空间。特别是,将连续和冗余的图像像素转化为具有高维语义的标记比对有意义的词进行建模更为困难

这篇文章是关于iBOT的,它在MAE之后四天发布,解决了MIM Tokenizer的困难。

以前类似的研究BEiT使用预先训练好的dVAE作为Tokenzier,而iBOT提出了一个在线Tokenzier,使用自蒸馏框架来实现端到端的MIM。关于该模型的更多细节将在后面介绍,所以我们先从结果开始,在图1中快速呈现。ImageNet-Top1的成功率高于DINO的成功率,显示出惊人的干净的注意力图。

iBOT

关于遮蔽图像建模

MIM对图像Token序列,以r的比例采样随机掩码。这里的N是指Tokens的数量。被屏蔽的,被替换成,得到图像Token序列。MIM的目标函数是从被屏蔽的图像中恢复原始图像。MIM的目标函数是从被屏蔽的Token中恢复原始图像,在BEiT中定义为公式(1)。

是将输入转化为K维概率分布的模型,是离散的VAE和要训练的模型的参数。这里,离散VAE将图像斑块转化为K个类别。

关于自我蒸馏

不同的,会包含不同的先验知识。例如,BEiT使用预先训练好的离散VAE,而iBOT则使用自我蒸馏的。这意味着模型的输出被作为教师数据来训练模型本身。在这里,我们只是准备了两个具有相同网络,但参数不同的模型,来进行自我蒸馏。具体来说,两个数据扩展产生的输入图像。我们取预测损失函数如公式(2)所示,每个预测为

,可以相互预测,因为它们是由相同的输入图像。在这里,学生和教师网络具有相同的结构,不同的参数。教师网络的参数是学生网络的参数的指数移动平均值。

关于iBOT的架构

图3显示了iBOT的概况。iBOT通过自我蒸馏来充当一个标记器。换句话说,iBOT通过自我蒸馏来学习MIM。具体来说,通过数据扩展从图像x中获得的u和v,被输入到教师和学生网络。每个网络都有一个骨干和一个补丁预测头,但教师网络没有使用梯度下降进行更新。相反,它表明用指数移动平均数(EMA)更新学生网络的参数可以将图像转化为一个连续的特征分布。

iBOT有两个目标函数。第一个是方程(2)中的通过自我蒸馏的预测损失函数:它预测了交叉视图中的分类令牌。第二种情况如方程(3)所示。使用教师网络的输出作为标签,学生网络恢复被掩盖的斑块。

通过后来的实验,我们表明,当参数在分类令牌和补丁恢复头之间共享时,准确性会更好,就像在。研究还表明,iBOT以softmax后的令牌分布作为监督信号,而不是以单次的令牌id作为监督信号,其准确性更高。

实验

在ImageNet-1K上的实验结果

我们用五个指标来评估iBOT所学到的表达的质量。

表1显示了k-NN和线性探测的结果。k-NN显示的是固定Backbone得到的特征向量应用于k-nearest分类时的准确性。线性探测显示的是固定Backbone并用单层线性分类器进行分类时的准确性。当主干是ViT-S/16或ViT-B/16时,k-NN和线性探测都优于DINO(+~1.3%)。此外,如最后一行所示,在ImageNet-22K数据上进行预训练后,线性探测指数达到81.6%。

表2是仅用ImageNet-1K进行微调的结果,表3是用ImageNet-22K进行预训练的结果。从表2来看,当主干为ViT-S/16时,我们得到的准确率为82.3%,当主干为ViT-B/16时,准确率为83.8%,高于MAE的准确率83.6%。表3还显示,对ImageNet-22K的预训练有助于提高准确率。

表4显示了半监督学习的结果,这是一个衡量标签效率的标准,因为半监督学习使用一些(1%,10%)的标签进行微调表4显示,在所有条件下,半监督学习都比DINO(SOTA)准确

此外,表5显示了无监督学习的结果。我们使用标准指标,如准确度(ACC)、调整随机指数(ARI)、归一化互信息(NMI)和福尔克斯-马洛斯指数(FMI)。iBOT比传统的SOTA(DINO)的准确度高出2.0%,NMI高出1.8%

以上。iBOT在ImageNet-1K上的结果表明,MIM能够提取良好的视觉意义上的特征。.

下游任务的实验结果

MIM的目标是为各种各样的任务学习准确的表征。这里我们在表6中介绍了COCO数据集上的物体检测和实例分割的实验结果以及ADE20K上的语义分割任务。

可以看出,iBOT比包括MAE在内的所有可比方法更准确(+0.8%至3.8%)。iBOT优于监督学习的结果,意味着它已经超越了MIM和其他自我监督学习方法的结果,达到了实用的水平。

最后,表7显示了转移学习在各种数据集上的准确性,iBOT在如此多的数据集上表现良好,说明它的优势。

iBOT的性质

Patch Token在MIM中学习了什么样的特征表示?对这个问题的回答导致了有意义的标记器是否可以被学习的问题。这里的图4显示了一个可视化的例子,但论文中还有大量的分析实验和非常有趣的见解。如果你有兴趣,请查看论文的4.3节和附录。

图4显示了ImageNet-1K评估数据中Patch Token的概率分布,并可视化了一些中心模式。我们可以看到,左边的两个斑块是灯光和狗耳朵,它们接近于同一等级。右边的两个斑块有类似的模式,这表明iBOT已经学会了关于纹理的信息。

摘要

在本文中,我们提出了iBOT,一个用于Vision Transformer的掩膜图像建模(MIM)模型,重点关注标记器对捕捉图像语义的重要性。与BEiT的离散VAE不同,iBOT提出了一个通过自我蒸馏学习tokenisers的框架,并通过大量的实验显示了其有效性。

一想到iBOT和MetaFormer(令人尴尬的Vision Transformer)的简单组合可以产生一个强大而轻巧的图像识别模型,我对未来的发展更加兴奋。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们