
多模态端对端变压器
三个要点
✔️ 考虑如何端到端训练基于ViT的VLP模型的框架
✔️ 探索将模型设计分解为四个部分
✔️ 用400万张图像进行预训练,实现了与最先进模型相媲美的性能
An Empirical Study of Training End-to-End Vision-and-Language Transformers
written by Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
(Submitted on 3 Nov 2021 (v1), last revised 18 Mar 2022 (this version, v3))
Comments: CVPR2022.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
视觉和语言(VLP)预训练,使用大量的图像和标题对来学习多模态表征,作为视觉语言(VL)任务的解决方案,如视觉问题回答(VQA)和图像-文本搜索,已经显示出优异的性能。
自然的问题是,是否有可能将在计算机视觉中显示出良好效果的视觉转化器(ViT)用于该VLP。
本文提出了多模态端到端TransformER(METER)框架,并研究了如何以端到端方式预训练一个完整的基于Transformer的VLP模型。
然后进行了各种分析以获得更好的性能,包括模型设计的各种元素,结果综合起来,在VQAv2 teststd集上达到了77.64%的准确性,超过了现有的最先进的方法。
关于VLP模式
首先,对三种典型的视觉和语言预训练(VLP)模型分别进行描述。
该表总结了用于视觉和文本特征提取的编码器(视觉编码器和文本编码器)、用于融合这些特征的多模态融合、解码器和预训练目标。
基于对象检测(OD)的区域(Region)特征
在以前的许多研究中,预训练的物体检测模型被用来提取视觉特征(表中的Vision Encoder OD)。
这种方法的缺点包括:领域特征的提取很耗时,而且预训练的OD在预训练期间被冻结,这限制了VLP模型的容量。
基于CNN的网格特征。
为了克服基于OD的方法的缺点,并进行端到端的预训练,例如,PixelBERT和CLIP-ViL直接从CNN和文本向Transformer输入网格特征。
直接使用网格特征是有效的,但通常对CNN和Transformer使用不同的优化器。例如,对于PixelBERT和CLIP-ViL,AdamW被用于Transformer,SGD被用于CNN。
基于ViT的批处理功能。
作为一个使用基于ViT特征的案例,例如ViLT将图像补丁特征和文本标记嵌入直接送入ViT模型。Visual Parsing和ALBEF也使用ViT作为图像编码器。
然而,这些模型在下游任务(如VQA)中落后于最先进的性能。本文探讨了基于ViT的端到端模型预训练方法,在保持快速推理速率的同时提供了高性能。
METER框架
本文重点讨论前面描述的三种类型的VLP模型中的一种,即使用基于ViT的批量特征的方法。
为此,本文提出了METER框架,如下图所示。
总的来说,给定一个文本句子$l$和一个图像$v$,VLP模型从一个文本特征$l=langle l_1, ..., l_N\rangle$和视觉特征$v=\langle v1, ..., v_M\rangle$是由文本和视觉编码器提取的。
这些信息通过多模态融合模块产生一个跨模态表示,并在产生最终输出之前可选择通过一个进一步的解码器。基于这个框架,进行了各种分析,以获得一个良好的基于ViT的VLP模型。
模型结构
对于模型架构的设计,有四个主要元素:视觉编码器、文本编码器、多模态融合模块和是否使用解码器。
视觉编码器
当使用基于ViT的批量特征时,图像被分割成补丁(16x16),这些补丁被输入到Transformer模型。
然而,如前所述,与最先进的方法相比,现有的基于ViT的VLP模型表现不佳,而且不知道各种预训练的ViT变体中哪一个是VLP的最佳模型。
本文分析了以下基于ViT的方法,将它们作为视觉编码器使用
- 维塔。
- DeiT。
- 蒸馏-DeiT。
- CaiT。
- VOLO
- 蓓儿丹娣
- 斯温变压器
- CLIP-ViT
文本编码器
VLP模型通过首先将输入的句子分割成子词序列,然后在句子的开头和结尾插入特殊的标记来生成输入文本序列。
本文使用以下预训练的语言模型作为文本编码器
- BERT
- RoBERTa.
- ELECTRA。
- 阿尔贝特
- DeBERTa.
还进行了只使用简单的词嵌入的实验,用BERT嵌入层进行初始化。
多模态融合模块
关于融合视觉和文本特征的模块,本文考虑了以下两种类型的融合模块
共同关注模型通过将两个不同的特征送入单独的转化器块来使用交叉关注,而合并关注模型只是将两个特征串联到一个转化器块。
仅编码器或编码器-解码器
现有的VLP模型在最后输出层之前使用解码器,有的有解码器,有的没有。在实验中,考虑了有解码器和无解码器两种情况,如下图所示。
学习前的目标
接下来,讨论了该模型的预学习目标。
屏蔽语言模型(MLM)。
在VLP的MLM中,给定一个图像-标题对,输入标记的一部分首先被随机屏蔽。
然后训练它从被掩盖的标记序列$l^{mask}$和图像$v$恢复原始输入标记$l$。
图像-文本匹配(ITM)。
图像-文本匹配涉及学习一个二元分类问题,即给定一个图像-标题对,确定标题是否与该图像相对应。
屏蔽图像建模(MIM)。
与MLM相反,MIM学习掩盖图像的一部分并恢复其区域特征。它可以预测被屏蔽区域的对象标签,而不是区域特征。
然而,一些研究质疑MIM对VLP是否有效,因为最新的VLP模型并没有应用MIM。
为了进一步研究,本文将MIM视为一个补丁分类任务,并分析了以下两种实现方式
带批内底片的屏蔽补丁分类
首先,由批次中的否定词组成的动态词汇被用来恢复输入补丁的模型。
具体来说,假设在每个训练步骤中,首先对一批图像-标题对${\langle v^k, l^k \rangle\}^B_{k=1}$进行采样($B$为批次大小)。然后,${v^k\}^B_{k=1}$中的所有图像斑块被视为一个候选集,我们预测哪些随机遮蔽的斑块在候选集中。
离散代码的掩蔽补丁分类
第二,训练模型以获得输入斑块的离散表示,并还原它。具体来说,使用DALL-E的VQ-VAE将每幅图像转换为一系列离散的标记,并调整图像大小,使补丁的数量与标记的数量相匹配。
然后,它预测与随机屏蔽的斑块相对应的离散标记。
METER的默认设置
如果没有特别提到,实验中METER的默认设置如下。
- 关于模型结构,编码器由六个Transformer编码器层组成,每层包括一个自我注意块、一个交叉注意块和一个前馈块。顶层的隐藏大小为768,头数为12。
- 使用了两个事先的学习目标,即MLM和ITM。
- 我们使用了四个预训练数据集:COCO、概念性标题、SBU标题和视觉基因组。
- 下游任务主要集中在VQAv2。NLVR2、SNLI-VE、COCO和Flickr30k也将被评估用于比较。
- 预研究涉及使用AdamW的10万步。
实验
关于视觉和文本编码器
最初,调查了视觉和文本编码器的影响。在这里,考虑到预训练的巨大成本,研究是在没有VLP的情况下进行的。具体来说,我们用预先训练好的视觉和文本编码器初始化下层,随机初始化上层,并在直接的下游任务中微调模型。
视觉和文本编码器的影响分别如下。
在没有VLP的情况下直接优化模型时,Swin Transformer和CLIP-ViT对视觉编码器特别有用。
另一方面,文本编码器之间没有显著差异,但RoBERTa被认为是最强大的。应该注意的是,使用预先训练好的文本编码器被认为是很重要的,因为在只使用单词嵌入的环境下,性能较低(only)。鉴于这些结果,使用VLP的结果如下。
特别是,CLIP-ViT-224/16为测试-dev/test-std集分别取得了77.19/77.20的VQA分数,超过了现有的最先进的方法VinVL。
关于多模态融合模块和解码器
上述多模态融合模块和解码器的比较结果如下。
实验结果表明,共同注意力模型的表现更好,这表明为两种模式中的每一种设置不同的参数是很重要的。
没有解码器的纯编码器模型也显示出更好的结果。然而,应该注意的是,编码器-解码器模型有一些优势,例如可以灵活地执行图像字幕等任务,这些优势不太适用于仅有编码器的模型。
学习前的目标
根据之前的学习目标,业绩变化如下。
实验结果表明,MLM和ITM改善了下游任务的性能,而MIM则显示出性能下降。这一结果表明,基于领域的VLP方法的结论可能对基于ViT的方法无效。
此外,这种性能下降似乎是由于不同目标之间的竞争造成的,这可以通过多任务优化等技术解决。
与现有方法的比较
最后,对目前实验中表现最好的模型(RoBERTa-base+Swin Transformer/CLIP-WiT-224/16)与现有方法进行了比较。结果如下。
总的来说,与预训练的模型相比,所提出的方法中基于CLIP的模型在所有的下游任务中都取得了最好或第二好的性能,而预训练的模型只有不到10M的图像。
用更多的图像(14M图像和20M图像-标题对)和更大的骨架(CoSwin-Huge, RoBERTa-base)进行预训练的结果也显示如下。
实验结果表明,所提出的方法优于在18亿张图像上训练的现有方法,表明所提出的方法是可扩展的。
摘要
有一篇关于解决视觉和语言多模态任务的VLP模型的论文,研究了如何对一个完整的基于Transformer的VLP模型进行端到端的预训练。
综合实验揭示了基于ViT的VLP模型的有效模型设计,并取得了与最先进的4M图像预训练方法相当的性能。该研究为基于ViT的视觉和语言预习方法铺设了新的道路。
与本文相关的类别