赶上最新的AI论文

变形人就是你所需要的:他们可以做任何事情!

Transformer

3个要点
✔️视觉、NLP和视觉+NLP任务的8个不同数据集的7个任务的一个变换器模型。
✔️七项任务中的每一项任务都有一个单一的变压器模型,并有电流。性能与SOTA型号相当
✔️ 与特定任务模型相比,参数效率高

Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
written by Ronghang HuAmanpreet Singh
(Submitted on 22 Feb 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)

code:

首先

我们的大脑是非常灵活的。它可以让我们说、写、听、看、想、动等等。这种灵活性在人工神经网络中也是一个理想的属性。最近,变换器已经被用于各种任务,包括视觉(对象检测、实例分割)、NLP(情感分析、语言建模)和视觉+NLP(视觉蕴含、视觉问题回答)。然而,迄今为止,将这些任务汇总到一个变压器模型中并不成功。

在本文中,我们描述了一个多模态编码器/解码器变换模型UniT,它可以同时处理七个不同领域的任务,从物体检测到自然语言再到视觉问题回答。

统一传输器(UniT):一物多用。


UniT由两个不同的编码器组成,一个用于使用CNN骨干编码图像,另一个用于编码文本 UniT基于DETR模型,并接收特定任务的查询嵌入。它由一个联合解码器组成。它还有一个任务专用输出头。下文将对每个组成部分进行说明。

1) 图像编码器

纯视觉任务和视觉与文本任务都需要图像编码器。它包括一个用于提取局部特征的CNN主干和一个用于捕捉全局上下文特征的多头自注意力编码器.CNN主干建立在ResNet-50架构上,由最后的c5堆栈扩展,用于对象检测。CNN主干基于ResNet-50架构,由上一个c5堆栈扩展而来,并对对象检测进行了预训练。将该CNN编码器生成的图像I的特征图进行扁平化处理,并传递给视觉变换编码器,生成一组视觉隐藏状态。hv= {hv1, hv2... hvL}是产生。这里,L是HvxWv等于HvWv是CNN编码器生成的特征图的高度和宽度。

有些任务,如对象检测和VQA,需要从图像中提取特定任务信息。为此,我们使用以下任务嵌入向量。

Pb-->e 是一个线性变换,将特征图向量的维度转换为变换器编码器的隐藏维度。Ev是可视变压器编码器。

2) 文本编码器

GLUE、QNLI、SST-2、QQP等言语任务以及VQA等言语和视觉任务都需要这种文本编码器。它由BERT组成,BERT是一个预先训练好的语言模型,采用掩蔽式语言建模和预测下一句话。给定一个单词序列,一个单词由S个代币来表示。{w1,w2.... ws}并被标记化为第一个标记。w1是一个特殊的令牌[CLS](在BERT中用于分类)。与图像编码器类似,我们也在词的序列中添加了一个特定任务的嵌入向量。wt任务一旦BERT对序列进行了编码,如下图所示。wt任务向量,去掉相应的编码。

另外,只使用[CLS]令牌对应的编码也被证明可以非常有效地节省计算工作量。

3)领域诊断解码器

与编码器不同的是,主模型对所有模式都使用相同的解码器。只有视觉编码器的编码用于视觉任务,只有文字编码器的编码用于语言任务。对于语言和视觉任务,两种编码是连在一起的。

变压器解码器从编码器中进行编码。h编码和长度q和特定任务查询嵌入序列,长度为q任务每一个变换器解码层都会收到一个特定任务的查询嵌入序列,长度为q解密后的隐藏状态h癸l并输出一连串的解码器的隐藏状态输出h的序列癸l在...期间自我关注是应用和h全神贯注适用于

4) 特定任务输出头

每个任务t都有自己的预测头。对于对象检测,输出头预测解码器输出中每个隐藏状态的q个边界框,以及这q个框中每个框的类预测。每个位置都可以预测一个类或一个背景。对于一些数据集,比如视觉基因组数据集,它的每个盒子都有属性注释,我们还增加了一个属性分类输出头。

cl, bl, al都是检测的查询嵌入q任务以及具有相同的序列长度q。

其他所有任务,如自然语言理解、VQA和视觉后果,都在任务t中进行。ct可以将其建模为类之间的分类任务。类预测p是根据实情 t是用交叉熵损失学习的,有

实验和评估

各种数据集的样本结果

UniT在多个领域的多个任务上进行联合训练:对象检测(COCO数据集、视觉基因组-VG数据集)、自然语言理解(GLUE基准:NLI、QQP、MNLI-不匹配、SST-2)、视觉和语文联合任务(VQAv2数据集,SNLI-VE)在VQAv2上进行了训练和验证,VQAv2包括来自视觉基因组数据集的问题和答案,SNLI-VE则对图像是否包含文字描述、是否矛盾、是否中性进行分类。


上表显示了对象检测和VQA的分析结果,其中Shared是指所有任务都使用同一个解码器,单独的解码器训练独立的解码器。共享:解码器用之前在COCO数据集上训练的模型的权重进行初始化。共享与解码器的联合学习对COCO和VG表现良好,对VQAv2有利,当编码器分离并联合训练时,VQAv2的准确率最高,所以总体来说,联合学习对物体检测和VQA是有效的。

上表显示了UniT模型在所有八项基准中的结果,与SOTA模型:BET、DETR和VisualBERT的结果具有很强的竞争力。 由于较少的跨模态重叠,UniT-单任务训练的结果优于多项任务(VG、QNLI、MNLI、QQP),优于目前的SOTA模型。另外需要注意的是,UniT-单任务在同一数据集上有500k次迭代训练,而多模态UniT在不同任务上总共有500k次迭代训练。所有UniT训练任务的超参数都保持不变;UniT-shared的参数减少了8倍,因为它可以以8个模型加起来的同等精度执行相同数量的任务。

结论

UniT模型可以在8个不同的数据集上执行7个不同的任务,这与特定任务的SOTA模型相当。这让我们离建立一个具有人脑灵活性和抽象能力的人工智能(AGI)系统模型更近了一步。在未来的工作中,我们的目标是进一步丰富这个伪AGI,将更多的模式融入到系统中,如语音识别、翻译、游戏功能和图像生成。详见论文原文。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们