ArtEmis V2.0版现已推出,消除了绘画数据集中的情感偏差!
三个要点
✔️ 识别由于ArtEmis收集过程中出现的情感偏见而导致的情感和标题的分布偏差
✔️ 创建了ArtEmis v2.0,采用对比性的数据收集方法,以消除这些情感偏见。
✔️ 与ArtEmis相比,用这种方法获得的互补数据集能够生成更高质量的标题。
It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection
written by Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny
(Submitted on 15 Apr 2022)
Comments: CVPR2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍。
情绪在决定人类心理状态和行为方面起着核心作用,对这些情绪进行建模对于提高应用和交互式人工智能的社会可接受性至关重要。
然而,在现代,能够捕捉到视觉、语言和情感之间关系的数据集非常有限,这些是对人类情感特征缺乏了解的原因之一。
为了解决这些问题,ArtEmis最近被提出来,作为一个大规模的数据集,注释了对视觉艺术的情感反应和对这些情感的语言学解释。
本文提出的论文旨在帮助识别本ArtEMis中包含的情感偏差,并消除这些偏差。对比数据收集方法来消除这些偏见。
ArtEmis中的情感偏向。
社会心理学家Plous认为,偏见是人类在不注意的情况下优化大脑功能的一种方式,由于人类在创建数据集时将给数据贴上标签,因此收集的数据不可避免地包含偏见。
这些偏见通常是温和的,但可以发展成社会问题,特别是在用于道德决策和人类互动的应用中。
这些偏见也包含在最近提出的ArtEmis中,这是一个对视觉艺术进行情感注释的大型数据集,本文作者在绘画及其相应的情感和标题的分布中发现了偏见。
ArtEmis的标题包括四种积极的情绪,"娱乐"、 "敬畏"、 "满足"和 "兴奋",四种消极的情绪,"愤怒"、" 厌恶"、 "恐惧 "和 "悲伤",以及 "其他"。积极情绪的比例为62%,消极情绪的比例为26%,这在情绪的分布上有很大的偏差,缺乏多样性。
为了改善这些情绪分布的偏差,消除情绪偏差,本文建议通过对比性的数据收集方法来收集互补的数据集。
拘束性的数据收集界面
接下来,本文提出的对比性数据收集方法将被描述。
现有的ArtEmis的一个主要问题是,它只为风格相似的绘画提供类似的标题。(这也是ArtEmis原始论文中的实验中最近邻模型表现异常出色的原因,它从训练数据中提取出与测试数据最接近的绘画数据)。
因此,本文提出了一种对比性的数据集收集方法,以消除这种对相邻绘画数据的情感偏见,并创建一个包括更多种类情感标题的数据集。
本文的数据收集界面如下图所示。
如图(a)所示,给定一个随机画作及其情绪的列表,受试者从下面24幅风格相似的画作中选择最合适的画作,该画作的情绪与给定的画作相反(如果没有找到合适的画作,受试者会选择 "无图像可用 "以避免情绪偏差)。(如果没有找到合适的画,主体选择 "无图像",以避免情感上的偏差)。
然后,他们被要求注释他们对所选绘画的感受,并描述他们为什么有这种感受,如图(b)和(c)所示。
这个界面使我们能够选择与现有注释相反的情绪,如下图所示,并且ArtEmis只为风格相似的画作提供类似标题的问题已经得到纠正。这一点可以得到证实。
在本文中,ArtEmis共识别了52933幅有情感偏见的画作,所有这些画作都在上述界面上进行了至少5人的注释,共收集到260533个实例。(其中7752张为 "无图像")。
现有的ArtEmis字幕是正面情绪占62%,负面情绪占26%,存在很大的分布偏差,但通过将上述接口收集的补充数据集(以下简称Constrastive数据集)与ArtEmis(以下简称ArtEmis)结合起来得到的新数据集。合并数据集),这表明积极的情绪47%。积极的情绪是47%,而负面情绪(45%),导致分布非常均衡。
定性分析
下图显示了一个样本的Constrastive数据集,左边是一幅随机的画,右边是为该画读出相反情绪的最合适的画,下面是现有的标题,上面是这个方法的标题。(两套,每边一对)
从图中可以看出,现有的标题是简单的,情感较少,但用这种方法,受试者往往更关注画作的细节,并使用更多的情感表达,因为他们被限制在选择能读出相反情感的画作。
量化分析
下面的数字显示了每个数据集的情感分布,并证实了如上所述,使用这种方法将现有的ArtEmis和补充数据集结合起来,会产生非常平衡的情感分布。
本文还对照Combined数据集和现有的ArtEmis研究了每种情绪的分布,以及根据语义空间理论研究了情绪的相关性,如下图所示。
图中Combined数据集和ArtEmis的情绪相关图显示,贴片的颜色越深,不同情绪之间的相关性越低,这一分析证实了Combined数据集与ArtEmis相比,每种情绪之间的相关性更低,并且清晰地表达了每种情绪。这一分析证实,与ArtEmis相比,Combined数据集在每种情绪之间的相关性较低,而且它清楚地代表了每种情绪。
实验
基于现有的研究,本文的实验采用了以下模型
- 最近的邻居(NN),它从训练数据中提取与测试数据最近的邻居数据。
- 使用LSTM和Meshed-Memory Transformers的Show-Attend-Tell(SAT)。
- 网状内存转化器(M2),它用转化器取代了递归结构,并使用在CNN中单独计算的边界盒。
- M以上。2修改过的。M2
- 正常的M2使用物体特征作为图像表征,但有些ArtEmis画作可能不适合作为绘画,因为它们实际上不包含物体(例如抽象画),所以修改后的M2将画作分成P×P个补丁,这样就可以从画作中提取补丁特征。该模型经过修改后,可以通过将绘画分成P×P个斑块(本实验中P=4)来提取斑块特征。
下表显示了在组合数据集上训练这些模型的结果。
这里需要注意的是,与现有的基于ArtEmis的训练结果相比,最近邻(NN)的表现是最低的,这表明在组合数据集中已经消除了对注释的情感偏差,而且NN模型并没有这表明,由于消除了组合数据集中对注释的情感偏见,NN模型不再表现良好。
另外修改后的M2是与现有的M2比现有的M2略高,证实了作者的假设:"只使用结果支持了作者的假设,即 "仅使用边界框提取特征并不适合绘画"。
下面是一个使用组合数据集和SAT生成的标题样本。(上图:仅生成标题 下图:基于情感的标题生成)
与在现有的ArtEmis数据集上的生成相比,在组合数据集上训练的模型被发现生成了更高质量的标题,抓住了绘画的特征。
摘要
情况如何?在这个问题上。由于ArtEmis收集过程中出现的情感偏差,确定了情感和标题分布的偏差,以及描述了一篇论文,提出了一种对比性的数据收集方法来消除这些情感偏见。
虽然本文只关注情感上的偏见,但ArtEmis中可能还存在其他尚未解决的偏见,如对种族和民族的偏见。未来的发展将是有意义的。
本文介绍的数据集和生成的标题的样本可以在本文中找到,如果你有兴趣,应该查阅。
与本文相关的类别