赶上最新的AI论文

反映图像本地风格信息的多样化标题生成现在可以实现了

图片说明。

三个要点
✔️ 提出Style-SeqCVAE,一个基于变异自动编码器(VAE)的框架,用于编码输入图像的局部风格信息。
✔️ 提出了一种注释扩展方法,从COCO数据集中获得各种风格的标题。
✔️ 用Senticap和COCO数据集进行实验,可以生成各种风格的标题。

Diverse Image Captioning with Grounded Style
written by Franz KleinShweta MahajanStefan Roth
(Submitted on 3 May 2022)
Comments: 
GCPR 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code:  
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,整合视觉和语言的多模态数据集的发展导致了图像说明中各种模型的提出(给定一个场景的图像,用自然语言生成该场景的语义描述的任务)。

然而,可用于此类图像字幕的数据集是COCO数据集正如COCO数据集所列出的那样,每张图片由不同的注释者提供的多个标题组成,使用这种数据集的标题框架有一个问题,即它们会确定地生成每张图片的单一标题

为了解决这些问题,人们提出了各种图像标题生成方法,使用的框架是为一张图像生成多个标题,但这些方法很少考虑到输入的图像和文本风格(由于句子结构的变化和对多个局部特征的关注而导致的语言风格的变化),只能生成一个与从图像中提取的单一情感类别相关的标题。由于注意到句子结构的变化和多种局部特征,语言风格),并且只能生成一个与从图像中提取的单一情感类别有关的标题

本文中提出的Style-SeqCVAE在变异自动编码器的潜空间中编码风格信息,并根据输入图像的局部风格信息依次构建潜空间,从而使输入图像的各种风格能够该模型能够生成标题

现有图像标题数据集的问题。

现有图像标题数据集的主要问题之一是,注释的标题文本可能与图像中的实际标题无关

例如,在下面这张来自Senticap数据集的图片中,标题文字错误地将左边的人称为死人在左边的人的标题文本中被错误地表述为死人,这种图像-标题关系中的错误会对生成的标题产生不利影响。

另一个问题是正面和负面标题频率的偏差:在Senticap数据集中,有842个正面形容词-名词对(形容词-名词对,ANPs),包括98个形容词-名词组合和270个名词而负面的ANPs只有468个,包括117个形容词-名词对和173个名词对。

为了弥补这些问题,本文提出了一个针对COCO和Senticap数据集的扩展方法。

COCO数据集的扩展。

在本文中,以下方法被用来扩展COCO数据集的各种风格的标题生成数据。

  1. 为了解决数据集中缺乏风格意识的标题注释的问题,将COCO属性中注重场景构成的COCO标题与风格表达的形容词结合起来
  2. 剔除98个与风格感知的标题生成不太相关的类别(如 "熟食")。
  3. 在其余类别中定义同义词组,以增加多样性

除此之外,我们还创建了一个标题数据集,以考虑到图像中的样式,具体步骤如下

  1. 对于COCO数据集中的每个物体类别,定义一组可互换的名词,并加上相应的标题
  2. 给出一个输入图像、相关的对象和标签以及一个作为基础真理的标题,在标题中找到也出现在上述定义的对象类别集合中的名词,并在名词前插入从注释集合中抽出的形容词。

由这些方法创建的数据集如下所示,这证实了标题可以被扩展以考虑到图像的风格。由这些方法创建的数据集如下。

Style-SeqCVAE的概述

为了获得具有基于图像的风格的标题,该方法首先提取与输入图像中的物体有关的特征,然后使用这些特征将Style-SeqCVAE制定为一个结构化的潜在空间,以编码基于图像的局部风格信息。

Style-SeqCVAE的目的是生成反映图像中包含的各种风格信息的标题,该模型的总体图示如下所示。

给定一个输入图像I和一个标题序列x =(x1,....,xT),从Faster R-CNN中提取图像中K个区域的视觉特征{v1,...,vk},并将平均的图像特征输入到注意力LSTM中,如图所示。,vk}从Faster R-CNN中提取,平均的图像特征被输入到注意力LSTM

本研究还提出将领域层面的风格信息进一步编码到c(I)t中,并在每个时间步骤中使用注意力权重(αt)对其进行更新。

它基于这样的假设,即图像风格在不同的区域之间会有很大的不同,为了说明这一点,它用一个明确的潜在空间结构为VAE建模,其中有基于LSTM的语言编码器和语言解码器(模型总体图中的黄色区域),其中图中的htattention、htencoder和htdecoder分别代表时间步骤t的LSTM隐藏向量。

实验

为了评估这种以图像为基础的风格生成各种标题的方法,本文中扩展的Senticap和COCO数据集被用于数据集,评估指标Bleu(B)、CIDEr(C)、ROUGE(R)和METEOR(M)。)被用于实验中。

对Senticap数据集的评估。

由于Senticap数据集由图像的正面和负面标题组成,以前的研究根据风格指标为给定的图像生成正面和负面标题,本实验也是基于此。基于Style-SeqCVAE所构建的潜在空间。为一个给定的图像生成正面和负面的标题。

结果显示在下面的表格中。(n是每张输入图像生成的标题数量)

从表中可以看出,当每张图片只生成一个标题时(n=1),我们的方法与现有研究的得分相当,但当每张图片生成10个标题时(n=10),我们的方法显然比现有研究的得分高。可以确认的是。

这表明,与本方法不同的是,现有的研究没有为特定的图像编码那么多的风格变化,而本方法的数据扩展技术允许在标题的适当位置插入与风格有关的适当的形容词。.

下图中还显示了一个生成的标题的例子。

因此,可以看出,该方法能够生成各种风格的标题,准确反映图像中包含的积极和消极情绪

摘要

情况如何?在这个问题上。描述了一篇提出Style-SeqCVAE的论文,这是一个基于变异自动编码器(VAE)的框架,用于编码输入图像的局部风格信息。

与现有研究相比,该方法能够生成更多反映输入图像各种特征的类似人类的标题句子,未来的进展非常可观。

本文介绍的模型的结构和生成的样本的细节可以在本文中找到,有兴趣的人可以参考一下。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们