赶上最新的AI论文

现在有了一个模型,可以生成从真实世界的图像中回忆出来的情感和描述!

现在有了一个模型,可以生成从真实世界的图像中回忆出来的情感和描述!

数据集

三个要点
✔️ 提出了情感解释说明(AEC),这是一项从真实世界图像中产生情感解释回忆的任务
✔️ 6283名注释者对85007张真实世界的图像感到了情感和解释创建了Affection,一个大型的注释图像数据集
✔️ 图灵测试显示,大约40%的评分者无法区分使用Affection创建的神经扬声器和人类

Affection: Learning Affective Explanations for Real-World Visual Data
written by Panos AchlioptasMaks OvsjanikovLeonidas GuibasSergey Tulyakov
(Submitted on 4 Oct 2022)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)

code:  
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来预测视觉艺术所引起的情绪和为其生成解释性文本的研究启发,越来越多的研究将图像所引起的情绪反应与自然语言描述联系起来

已经开发了从图像中分类情绪的模型,但通过自然语言学习情绪,所产生的情绪分析的细微差别更加丰富,可以产生更多类似人类的描述

本文提出了一个任务(情感解释字幕,AEC),将这种情感预测解释的生成扩展现实世界图像的情感,而不是像现有的研究那样局限于视觉艺术,并描述了这个任务的一个大型数据集,即将描述感情和利用创建一个神经扬声器

感情数据集。

情感(情感解释)数据集是基于现有的公开数据集MS-COCO、Emotional-Machines、Flickr30k Entities和Visual Genome中的图像,以及它建立在Quanzeng等人的现有研究中使用的图像上。

具体来说,6283名具有不同意见、个性和偏好的注释者对从五个数据集中选出的85007张真实世界的图像所感受到的情绪,从四种积极情绪(娱乐、敬畏、满足和兴奋和一种消极情绪(愤怒厌恶、恐惧和悲伤)或其他的情绪中选出。厌恶、恐惧和悲伤其他什么东西之一

结果,所有图像中71.3%的正面情绪和21.1%的负面情绪被注释出来,如下图所示。

然后通过添加详细描述情绪的文字,收集图像/描述对,如下图所示。

显示了一对与 "鸟 "有关的感情的图像和描述。图像的特点是它包含注释,其中的推论超出了可以从图像上识别的因素。

此外,下表显示,Affection比现有的数据集有更丰富的词汇和更复杂的语料。

情感解释的字幕。

为了完成从真实世界的图像中生成情感和描述的任务,需要结合以下两个模型

  1. 一个模型,给定一个真实世界的图像和它的描述,预测从它那里召回的情绪分布。
  2. 一个模型,给定一个真实世界的图像,生成一个包括由它引起的情绪的描述。

将逐一解释。

基本分类任务

在本文中,根据现有的研究,我们把从输入文本中预测情感的模型表示为Cemotion|text,把从输入图像中预测情感的模型表示为Cemotion|image

Cemotion|text 使用了一个基于LSTM的文本分类器,用标准的交叉熵损失从头开始训练,以预测用Affection注释的九个情感类别。

Cemotion|image采用预先用ImageNet训练过的ResNet-101来预测输入图像的适当的情绪分布,用Affection的注释和预测的情绪分布的KL-divergence作为损失进行了微调。

神经性听众和扬声器

作为生成模型的基础,本文使用了Show-Attend-and-Tell(SAT),这是一个简单且性能高的模型,在现有研究中被广泛使用。具体来说,在每个时间步骤中,学习ResNet-101Cemotion|image编码的图像信息的关注度,并通过结合当前的输入标记和LSTM的隐藏状态预测下一个标记

这使得对一个给定的图像进行适当的情绪预测和描述成为可能,如下图所示。

此外,值得注意的是,通过语言学习情绪,与现有的仅从图像进行情绪分类的模型相比,可以做出更细致的预测

例如,下面底排左起第二张狗的图片,显示狗在咆哮并露出牙齿→有可能伤人→恐惧,这与现有的模型不同,表明可以做出更像人类的预测。

此外,与现有的研究一样控制来自Cemotion|image的情绪分布 使得生成包含任意情绪的描述 成为可能

情感图灵测试

本文进行了图灵测试,以评估所创建的神经扬声器能够产生类似人类的句子的程度。

具体来说,评估了四个模型:一个使用基本SAT的模型(Default一个使用ResNet-101并添加了情感信息的模型(Emo-Grounded),一个使用CLIP模型来排列和输出最合适的生成句子的模型(Default-Pragmatic)和一个同时使用Emo-Grounded的模型。基准法和默认法(Emo-Grounded Pragmatic),以及一个同时使用这两种方法的模型(Emo-Grounded Pragmatic)。

测试程序如下。

  1. 随机创建500张测试图片,并在每张图片上添加一个由人类生成的描述
  2. 将创建的图像和描述与神经扬声器产生的描述联系起来。
  3. 对于这些样本数据集,注释者选择是人类还是神经说话者的描述

图灵测试的结果如下图所示。

从图中可以看出,在所有模型中,超过40%(41.1%-46.2%)的受访者将两个给定的描述都评为人类产生的描述,这表明Affection数据集和使用它的神经扬声器能够产生与人类相当的描述。事实证明,Affection数据集和使用它的神经扬声器能够生成与人类相媲美的解释文本。

摘要

情况如何?这篇文章我们描述了一篇论文,该论文将视觉艺术的情感分析和描述的生成从现有的研究扩展到了现实世界的图像,并这个任务创建了一个大型的数据集--Affection,以及一个使用它的神经扬声器

这项研究未来进展非常令人振奋 ,因为它不仅能从图像中生成描述性文本,而且还能使人们 更全面地了解图像内容及其元素如何影响人类的情感

本文所介绍的数据集和模型的结构细节可以在本文中找到,如果你有兴趣,应该查阅

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们