变形人就是你所需要的：他们可以做任何事情!

Transformer 29/03/2021

3个要点
✔️视觉、NLP和视觉+NLP任务的8个不同数据集的7个任务的一个变换器模型。
✔️七项任务中的每一项任务都有一个单一的变压器模型，并有电流。性能与SOTA型号相当
✔️ 与特定任务模型相比，参数效率高

Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
written by Ronghang Hu, Amanpreet Singh
(Submitted on 22 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)

code：

首先

我们的大脑是非常灵活的。它可以让我们说、写、听、看、想、动等等。这种灵活性在人工神经网络中也是一个理想的属性。最近，变换器已经被用于各种任务，包括视觉（对象检测、实例分割）、NLP（情感分析、语言建模）和视觉+NLP（视觉蕴含、视觉问题回答）。然而，迄今为止，将这些任务汇总到一个变压器模型中并不成功。

在本文中，我们描述了一个多模态编码器/解码器变换模型UniT，它可以同时处理七个不同领域的任务，从物体检测到自然语言再到视觉问题回答。

统一传输器(UniT)：一物多用。

UniT由两个不同的编码器组成，一个用于使用CNN骨干编码图像，另一个用于编码文本 UniT基于DETR模型，并接收特定任务的查询嵌入。它由一个联合解码器组成。它还有一个任务专用输出头。下文将对每个组成部分进行说明。

1) 图像编码器

纯视觉任务和视觉与文本任务都需要图像编码器。它包括一个用于提取局部特征的CNN主干和一个用于捕捉全局上下文特征的多头自注意力编码器.CNN主干建立在ResNet-50架构上，由最后的c5堆栈扩展，用于对象检测。CNN主干基于ResNet-50架构，由上一个c5堆栈扩展而来，并对对象检测进行了预训练。将该CNN编码器生成的图像I的特征图进行扁平化处理，并传递给视觉变换编码器，生成一组视觉隐藏状态。h^v= {h^v₁, h^v₂... h^v_L}是产生。这里，L是H_vxW_v等于H_v和W_v是CNN编码器生成的特征图的高度和宽度。

有些任务，如对象检测和VQA，需要从图像中提取特定任务信息。为此，我们使用以下任务嵌入向量。

P_b-->e 是一个线性变换，将特征图向量的维度转换为变换器编码器的隐藏维度。E_v是可视变压器编码器。

2) 文本编码器

GLUE、QNLI、SST-2、QQP等言语任务以及VQA等言语和视觉任务都需要这种文本编码器。它由BERT组成，BERT是一个预先训练好的语言模型，采用掩蔽式语言建模和预测下一句话。给定一个单词序列，一个单词由S个代币来表示。{w₁,w₂.... w_s}并被标记化为第一个标记。w₁是一个特殊的令牌[CLS]（在BERT中用于分类）。与图像编码器类似，我们也在词的序列中添加了一个特定任务的嵌入向量。w_t^任务一旦BERT对序列进行了编码，如下图所示。w_t^任务向量，去掉相应的编码。

另外，只使用[CLS]令牌对应的编码也被证明可以非常有效地节省计算工作量。

3）领域诊断解码器

与编码器不同的是，主模型对所有模式都使用相同的解码器。只有视觉编码器的编码用于视觉任务，只有文字编码器的编码用于语言任务。对于语言和视觉任务，两种编码是连在一起的。

变压器解码器从编码器中进行编码。h^编码和长度q和特定任务查询嵌入序列，长度为q^任务每一个变换器解码层都会收到一个特定任务的查询嵌入序列，长度为q解密后的隐藏状态h^癸l并输出一连串的解码器的隐藏状态输出h的序列^癸l在...期间自我关注是应用和h^癸到全神贯注适用于

4) 特定任务输出头

每个任务t都有自己的预测头。对于对象检测，输出头预测解码器输出中每个隐藏状态的q个边界框，以及这q个框中每个框的类预测。每个位置都可以预测一个类或一个背景。对于一些数据集，比如视觉基因组数据集，它的每个盒子都有属性注释，我们还增加了一个属性分类输出头。

c^l, b^l, a^l都是检测的查询嵌入q^任务以及具有相同的序列长度q。

其他所有任务，如自然语言理解、VQA和视觉后果，都在任务t中进行。c_t可以将其建模为类之间的分类任务。类预测p是根据实情 t是用交叉熵损失学习的，有

实验和评估

各种数据集的样本结果

UniT在多个领域的多个任务上进行联合训练：对象检测（COCO数据集、视觉基因组-VG数据集）、自然语言理解（GLUE基准：NLI、QQP、MNLI-不匹配、SST-2）、视觉和语文联合任务（VQAv2数据集，SNLI-VE）在VQAv2上进行了训练和验证，VQAv2包括来自视觉基因组数据集的问题和答案，SNLI-VE则对图像是否包含文字描述、是否矛盾、是否中性进行分类。

上表显示了对象检测和VQA的分析结果，其中Shared是指所有任务都使用同一个解码器，单独的解码器训练独立的解码器。共享：解码器用之前在COCO数据集上训练的模型的权重进行初始化。共享与解码器的联合学习对COCO和VG表现良好，对VQAv2有利，当编码器分离并联合训练时，VQAv2的准确率最高，所以总体来说，联合学习对物体检测和VQA是有效的。

上表显示了UniT模型在所有八项基准中的结果，与SOTA模型：BET、DETR和VisualBERT的结果具有很强的竞争力。由于较少的跨模态重叠，UniT-单任务训练的结果优于多项任务(VG、QNLI、MNLI、QQP），优于目前的SOTA模型。另外需要注意的是，UniT-单任务在同一数据集上有500k次迭代训练，而多模态UniT在不同任务上总共有500k次迭代训练。所有UniT训练任务的超参数都保持不变；UniT-shared的参数减少了8倍，因为它可以以8个模型加起来的同等精度执行相同数量的任务。

结论

UniT模型可以在8个不同的数据集上执行7个不同的任务，这与特定任务的SOTA模型相当。这让我们离建立一个具有人脑灵活性和抽象能力的人工智能（AGI）系统模型更近了一步。在未来的工作中，我们的目标是进一步丰富这个伪AGI，将更多的模式融入到系统中，如语音识别、翻译、游戏功能和图像生成。详见论文原文。