ArtEmis V2.0版现已推出，消除了绘画数据集中的情感偏差!

数据集 14/10/2022

三个要点
✔️ 识别由于ArtEmis收集过程中出现的情感偏见而导致的情感和标题的分布偏差
✔️ 创建了ArtEmis v2.0，采用对比性的数据收集方法，以消除这些情感偏见。
✔️ 与ArtEmis相比，用这种方法获得的互补数据集能够生成更高质量的标题。

It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection
written by Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny
(Submitted on 15 Apr 2022)
Comments: CVPR2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

情绪在决定人类心理状态和行为方面起着核心作用，对这些情绪进行建模对于提高应用和交互式人工智能的社会可接受性至关重要。

然而，在现代，能够捕捉到视觉、语言和情感之间关系的数据集非常有限，这些是对人类情感特征缺乏了解的原因之一。

为了解决这些问题，ArtEmis最近被提出来，作为一个大规模的数据集，注释了对视觉艺术的情感反应和对这些情感的语言学解释。

本文提出的论文旨在帮助识别本ArtEMis中包含的情感偏差，并消除这些偏差。对比数据收集方法来消除这些偏见。

ArtEmis中的情感偏向。

社会心理学家Plous认为，偏见是人类在不注意的情况下优化大脑功能的一种方式，由于人类在创建数据集时将给数据贴上标签，因此收集的数据不可避免地包含偏见。

这些偏见通常是温和的，但可以发展成社会问题，特别是在用于道德决策和人类互动的应用中。

这些偏见也包含在最近提出的ArtEmis中，这是一个对视觉艺术进行情感注释的大型数据集，本文作者在绘画及其相应的情感和标题的分布中发现了偏见。

ArtEmis的标题包括四种积极的情绪，"娱乐"、 "敬畏"、 "满足"和 "兴奋"，四种消极的情绪，"愤怒"、" 厌恶"、 "恐惧 "和 "悲伤"，以及 "其他"。积极情绪的比例为62%，消极情绪的比例为26%，这在情绪的分布上有很大的偏差，缺乏多样性。

为了改善这些情绪分布的偏差，消除情绪偏差，本文建议通过对比性的数据收集方法来收集互补的数据集。

拘束性的数据收集界面

接下来，本文提出的对比性数据收集方法将被描述。

现有的ArtEmis的一个主要问题是，它只为风格相似的绘画提供类似的标题。(这也是ArtEmis原始论文中的实验中最近邻模型表现异常出色的原因，它从训练数据中提取出与测试数据最接近的绘画数据）。

因此，本文提出了一种对比性的数据集收集方法，以消除这种对相邻绘画数据的情感偏见，并创建一个包括更多种类情感标题的数据集。

本文的数据收集界面如下图所示。

如图（a）所示，给定一个随机画作及其情绪的列表，受试者从下面24幅风格相似的画作中选择最合适的画作，该画作的情绪与给定的画作相反（如果没有找到合适的画作，受试者会选择 "无图像可用 "以避免情绪偏差）。(如果没有找到合适的画，主体选择 "无图像"，以避免情感上的偏差)。

然后，他们被要求注释他们对所选绘画的感受，并描述他们为什么有这种感受，如图（b）和（c）所示。

这个界面使我们能够选择与现有注释相反的情绪，如下图所示，并且ArtEmis只为风格相似的画作提供类似标题的问题已经得到纠正。这一点可以得到证实。

在本文中，ArtEmis共识别了52933幅有情感偏见的画作，所有这些画作都在上述界面上进行了至少5人的注释，共收集到260533个实例。(其中7752张为 "无图像"）。

现有的ArtEmis字幕是正面情绪占62%，负面情绪占26%，存在很大的分布偏差，但通过将上述接口收集的补充数据集（以下简称Constrastive数据集）与ArtEmis（以下简称ArtEmis）结合起来得到的新数据集。合并数据集)，这表明积极的情绪47%。积极的情绪是47%，而负面情绪（45%），导致分布非常均衡。

定性分析

下图显示了一个样本的Constrastive数据集，左边是一幅随机的画，右边是为该画读出相反情绪的最合适的画，下面是现有的标题，上面是这个方法的标题。(两套，每边一对)

从图中可以看出，现有的标题是简单的，情感较少，但用这种方法，受试者往往更关注画作的细节，并使用更多的情感表达，因为他们被限制在选择能读出相反情感的画作。

量化分析

下面的数字显示了每个数据集的情感分布，并证实了如上所述，使用这种方法将现有的ArtEmis和补充数据集结合起来，会产生非常平衡的情感分布。

本文还对照Combined数据集和现有的ArtEmis研究了每种情绪的分布，以及根据语义空间理论研究了情绪的相关性，如下图所示。

图中Combined数据集和ArtEmis的情绪相关图显示，贴片的颜色越深，不同情绪之间的相关性越低，这一分析证实了Combined数据集与ArtEmis相比，每种情绪之间的相关性更低，并且清晰地表达了每种情绪。这一分析证实，与ArtEmis相比，Combined数据集在每种情绪之间的相关性较低，而且它清楚地代表了每种情绪。

实验

基于现有的研究，本文的实验采用了以下模型

最近的邻居（NN），它从训练数据中提取与测试数据最近的邻居数据。
使用LSTM和Meshed-Memory Transformers的Show-Attend-Tell（SAT）。
网状内存转化器^（M2），它用转化器取代了递归结构，并使用在CNN中单独计算的边界盒。
M以上。²修改过的。^M2
- 正常的^M2使用物体特征作为图像表征，但有些ArtEmis画作可能不适合作为绘画，因为它们实际上不包含物体（例如抽象画），所以修改后的^M2将画作分成P×P个补丁，这样就可以从画作中提取补丁特征。该模型经过修改后，可以通过将绘画分成P×P个斑块（本实验中P=4）来提取斑块特征。