赶上最新的AI论文

GRIT,一个整合了两个视觉特征并实现了显著的准确性改进的图像标题生成模型,现在可以使用了!

GRIT,一个整合了两个视觉特征并实现了显著的准确性改进的图像标题生成模型,现在可以使用了!

图片说明。

三个要点
✔️ 将网格特征和区域特征这两种视觉特征整合在一起,明显优于现有的图像标题生成方法。
✔️ 通过用基于DETR的检测器取代现有方法中基于CNN的检测器,实现计算速度的提高。
✔️ 仅有变压器的模型结构实现了端到端的学习

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features
written by Van-Quang NguyenMasanori SuganumaTakayuki Okatani
(Submitted on 20 Jul 2022)
Comments: 
ECCV 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

图像标题的生成是一项任务,即在给定场景图像的情况下,用自然语言生成场景的语义描述,这需要对场景有一个全面的理解,并生成反映这种理解的描述。

这项任务中最重要的问题是如何从图像中提取好的特征,现有研究对这个问题主要采取了两种方法

  • 网格特征:从一个规则的网格点中提取的局部图像特征。
  • 区域特征:由物体检测器检测到的边界盒的局部图像特征。

目前最先进的图像标题生成方法使用区域特征对检测到的物体区域直接进行编码,而

  1. 不能覆盖物体之间的区域,所以不能获得上下文信息,如物体之间的关系
  2. 物体错误检测的风险,例如遗漏图像中的重要物体。
  3. 计算成本是巨大的。

以下是这个系统的一些问题。(当使用高性能的基于CNN的检测器,如Faseter R-CNN时,这一点尤其明显)。

另一方面,网格特征是从整个图像中提取的,因此获得图像中物体之间的关系等上下文信息可以解决上述两个问题,关于整合这两类特征的研究已经开展,但最佳方法仍不清楚。

本文提出的GRIT(基于网格和区域的图像字幕变换器)由一个仅有变换器的架构组成,该架构整合了这两个视觉特征,如下图所示,是一个端到端的模型,与现有方法相比,实现了计算速度和性能的显著提高。它是一个端到端的模型,与现有的方法相比,在计算速度和性能方面取得了显著的改善,如下图所示。

GRIT: 基于网格和区域的图像标题变换器。

GRIT由两个机制组成:一个是从输入图像中提取两个视觉特征,另一个是从提取的特征中生成标题文本。(见下图)

特征提取器

与传统的图像说明方法一样,该方法使用一个R区域特征,但它使用一个物体检测器来提取R在传统的SOTA图像说明模式中。在传统的SOTA图像说明模型中使用的是基于CNN的检测器,如Faster R-CNN,而不是基于Transformer的框架,DETR,。

这使得整个模型从输入图像到最终输出,即生成的标题,可以进行端到端的学习,并大大减少了计算时间,同时与SOTA模型相比,保持了模型在图像标题方面的性能

具体来说,系统根据Deformable DETR(DETR的一个变种)的学习方法对物体检测进行预学习。然后根据以下损失函数在物体检测和物体属性预测的组合任务中进行微调

其中,P^σ^(i)(ai)是属性概率,b^σ^(i)(ci)是类别概率,P^σ^(i)(ci)是类别概率,和P^σ^(i)(ci)是类别概率,Lbox(bi,b^σ^(i))是对象i的归一化边界盒回归的损失。

标题生成器

该字幕生成器采用了基于以往研究中采用的Transformer架构的基本设计,并将两种类型的视觉特征作为输入:区域特征和网格特征。

然后,字幕生成器以自回归的方式生成字幕句子,取时间t-1的预测词序列,预测时间t的下一个词。

具体来说,模型是使用交叉熵花进行预训练,并通过CIDEr-D优化与自我批评的序列训练策略进行微调,遵循图像字幕研究的标准方法。

这意味着,给定一个基础真理句x*1:T,t=1,.... ,T,模型将被训练来预测下一个词x*t模型将被训练来预测下一个词x*t,这相当于使以下关于模型参数θ的损失函数最小化。

然后通过CIDEr-D优化对模型进行微调,根据现有研究,CIDEr得分是奖励,奖励的平均值是奖励基线。因此,自我批评序列训练中的损失由以下公式表示。

其中wi波束搜索中的第i个句子,r是奖励基线,k是批次中的样本数

实验

本文使用COCO数据集(一个由123,287张带有五种标题类型的图像组成的数据集)进行了在线评估,该数据集是图像标题研究的一个标杆。此外,利用nocaps和Artemis数据集对该模型进行了性能评估,以测试该方法对其他图像标题数据集的有效性。

标准评价协议BLEU@N、METEOR、ROUGE-L、CIDEr和SPICE也被作为评价指标。

用COCO数据集进行在线评估。

在这个实验中,与单个模型和六个模型的集合在COCO数据集的40000张测试图像上的结果进行了评估,结果如下表所示。

如表所示,该方法在所有评价指标上都取得了最佳成绩

用nocaps和Artemis数据集进行性能评估。

除了上述实验外,本研究还进行了两个额外的实验:(a)在与COCO数据集相同的条件下对模型进行评估;(b)评估在COCO上训练的模型在零点上的推理性能。

(a)和(b)的实验结果分别如下表所示。

结果显示,与现有的方法相比,这两个实验的性能都有显著提高

定性的例子。

下图显示了由提议的(GRIT)和现有的(M2 Transformer)方法为COCO数据集的输入图像生成的标题的例子。

与现有的方法相比,GRIT被发现在物体检测和物体关系描述方面能产生非常好的标题。

现有方法生成的标题不准确也是由于传统的图像标题生成模型的问题,由预先训练的物体检测器提取的区域特征导致错误的检测和缺乏上下文信息,而我们的方法该方法已被证明可以消除这些问题。

摘要

情况如何?在这篇文章中,我们描述了基于网格和区域的图像字幕变换器(GRIT),这是一个基于变换器的图像字幕模型,它整合了从输入图像中提取的区域特征和网格特征,从输入图像中提取更丰富的视觉信息。解释了一个基于Transformer的图像字幕模型,该模型从输入图像中提取更丰富的视觉信息。

本文进行的实验表明,GRIT在推理速度和准确性方面明显优于现有的方法,而且该模型成功地解决了整合两个视觉特征的问题,这一直是一个挑战。

可以预见,在这种方法的基础上,图像标题生成领域将日益发展,未来的发展将受到密切关注。

本文介绍的模型的结构和生成的样本的细节可以在本文中找到,有兴趣的人可以参考一下。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们