赶上最新的AI论文

ArtEmis:用人工智能解释艺术

ArtEmis:用人工智能解释艺术

论文

3个要点
✔️生成了一个大型数据集:ArtEmis,标注了对视觉艺术(如绘画及其描述)的情感感受
✔️在ArtEmis上进行训练,以创建一个从图像和句子中预测对其情感的模型。
✔️用神经扬声器进一步训练,预测图像。以生成使用隐喻表达方式描述图像的句子。

ArtEmis: Affective Language for Visual Art
written by Panos AchlioptasMaks OvsjanikovKilichbek HaydarovMohamed ElhoseinyLeonidas Guibas
(Submitted on 19 Jan 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
 
code: 

首先

情感是人类最常见的特征之一,是通过语言分享的。在这篇论文中,我们特别想了解观众对视觉艺术的情感以及解释这些情感的句子.用视觉艺术来试图了解人类对图像的情感,因为视觉艺术是作者以锻炼观众的意识为目的而创作的,其中包含了抽象的表达方式,需要复杂的解释。形象的情感。为了实现这些研究,我们创建了ArtEmis,一个标注了大量图像、情感和描述的数据集。然后,我们使用ArtEmis创建了一个从图像和句子中预测情感的分类器,以及一个生成基于情感的描述的Neural speaker。

ArtEmis

图片来自ArtEmis使用公共数据WikiArt,要求至少五个人描述他们对每张图片的感受,以及他们为什么有这种感觉。他们被要求从四种积极情绪中选择:"娱乐"、"敬畏"、"满足"和"兴奋";四种消极情绪:"愤怒"、"厌恶"、"恐惧"和"悲伤";以及一种消极情绪:"其他东西"。我们请他们从"别的东西"中选择。下图为标注的样品。如你所见,在描述中,有很多抽象的表达方式,总的来说,ArtEmis由439121句描述组成。

特征

与传统的数据集如COCO相比,ArtEmis句子不仅有更多的字符,而且有更多的词类,使其成为一个更具表现力的数据集。此外,它还包含了非常多的情感表达。下图是使用情感分析仪VADER分析的"具体性"、"主观性"和"情感"得分的直方图,与COCO相比,显示出ArtEmis更加抽象、主观和情感化。

ArtEmis中情感类别的分布如下图所示。总的来说,选择积极情绪的人比选择消极情绪的人多。然而,值得注意的是,61%的图像积极的情绪并至少选择了一种负面情绪。此外,标注者之间的一致程度很高,45.6%的图像被大多数受访者赋予了相同的情感。

有效性

为了评估ArtEmiss描述的有效性,我们向未标记的受试者展示了一张随机的图像和描述,并询问他们是否是对这张图像的有效描述,97.5%的受试者表示是。此外,当被试以随机顺序呈现多幅图像和描述,并要求其进行正确组合时,94.7%的图像被正确预测。以上结果表明,尽管抽象程度很高,但我们还是能够很好地对图像进行标注。

技巧

情绪预测器

作为数据的情感预测,我们考虑了给定句子的情感预测问题和给定图像的情感分布预测问题。前者表示为$C_{emotion|text}$,通过使用LSTM创建文本分类器,以交叉熵作为误差函数,并对训练好的BERT模型进行微调。后者是表示为$C_{emotion|image}$,以输出与实际分布之间的KL离差作为误差函数。后一种模型表示为$C_{emotion|image}$,是通过微调训练的ResNet编码器创建的。

神经扬声器

首先,为了比较,我们创建了一个基于Adjective-Noun Pairs-based Neural speaker (ANP),在没有ArtEmis的COCO数据集上训练,以学习形容词-名词对。基于神经扬声器(ANP)的形容词名词对。

基本扬声器

对于训练ArtEmis的模型,我们使用了Show-Attend-Tell(SAT),它结合了图像编码器和LSTM的注意机制,以及Meshed-Memory Transformer($M^2$),它用变压器代替了递归结构,并使用了CNN分别计算的边界框。网状内存变换器($M^2$)。此外,我们创建了Nearest-Neighbor(NN),它本身并不进行训练,而是从训练数据中提取测试数据的最近邻居并输出。

接地扬声器

此外,在学习SAT考试的时候,一定要做到到情感标签预测。我们创建了一个模型,可以通过添加从全关联层提取的特征来生成任意情绪的句子。

评价方法

三种Metric方法,'BLEU1-4','ROUGE-L'和'METEOR',被用来定量评估神经扬声器。这些代表了语言的相似性,与值越高,与地面真相的一致性越好。其他指标包括生成的句子之间的常用词长度、隐喻表达的百分比,以及生成的句子的预测情感与地面真相相匹配的百分比('。Emo-Align')等进行了评价。此外,作为一个观察机器和人类情感差异的实验,我们模仿图灵测试,让人预测生成的句子是人还是机器。

结果

情绪预测器

由于正、负两种情绪相似,所以很难准确地对每种情绪进行分类。正、负两类分类的准确率约为90%。

神经扬声器

各个神经扬声器的性能如下表所示'。由于ArtEmis的抽象程度较高,"BLEU"等语言相似度的数值低于COCO等传统数据集的评价。此外,使用ArtEmis(Basic,Grounded)和不使用ArtEmis(NN,ANP)训练的模型在评价性能上也存在差异。此外,"Emo-Align"显示,有情感的句子生成的效果比没有情感的句子好很多。

作为定性评价,下图是使用Grounded speaker为测试图像生成的句子。可以看出,在指定情感的基础上,已经达到了较高的表达水平。

图灵测试

有趣的是,50.3%的地面说话者产生的句子和40%的基本说话者产生的句子被认定为是人类产生的。

摘要

人类的感知和情感是人工智能中未被充分开发的领域。 为了解决这些问题,在本文中,我们生成了标有对视觉艺术的情感和描述它们的句子的ArtEmis。然后,我们尝试着建立一个Neural speaker来预测情绪和描述解释。虽然这些结果表明,我们能够生成部分无法区分人类和机器的句子,但在多样性和创造性方面,它们与人类的句子仍有很大差距。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们