
现在有了一个框架,可以生成反映提示中隐喻表达的图像!
三个要点
✔️提出了一个人类-人工智能合作框架,从语言隐喻生成包含视觉隐喻的图像
✔️ 6476 幅包含视觉隐喻的图像创建了 HAIVMet(人类-人工智能视觉隐喻),这是一个由
✔️组成的数据集实验结果表明,它比现有模型能更好地表示视觉隐喻
I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors
written by Tuhin Chakrabarty, Arkadiy Saakyan, Olivia Winn, Artemis Panagopoulou, Yue Yang, Marianna Apidianaki, Smaranda Muresan
(Submitted on 24 May 2023 (v1), last revised 14 Jul 2023 (this version, v2))
Comments: ACL 2023
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Human-Computer Interaction (cs.HC)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
视觉隐喻是一种强大的表达技巧,用于通过图像传递信息和创意,与语言隐喻一样,在广告和创意写作中经常使用。
此外,近年来,生成式人工智能在广告和创意工作中的使用越来越普遍,这些表现力强的技术能够生成更引人注目的图像。
另一方面,基于扩散模型的新一代人工智能,如 MidJourney 和 Stable Diffusion,可以生成比 VAE 和 GAN 更高质量的图像,但它们无法捕捉提示中语言隐喻的抽象性。因此很难生成具有视觉隐喻的图像。
为了解决这一问题,本文介绍了如何利用 结合了大规模语言模型和扩散模型的人类-人工智能协作框架来创建由 6476 幅包含视觉隐喻的图像组成的数据集 HAIVMet(人类-人工智能视觉隐喻),并生成包含视觉隐喻的图像。本文介绍了如何创建HAIVMet(人类-人工智能视觉隐喻),从而生成包含视觉隐喻的图像。
生成式人工智能的问题
基于扩散模型的大规模生成式人工智能,如 MidJourney 和 Stable Diffusion,因其能够根据输入提示生成高质量图像而备受关注。
然而,在本文提出的从语言隐喻生成包含视觉隐喻的图像的任务中,首先要求模型识别提示语的隐含意义及其与相关对象的关系,以及如何在生成的图像中将它们结合起来需要找出如何在生成的图像中将它们结合起来。
作为现有生成式人工智能难以完成此类任务的一个例子,请参阅下图(左图:普通 DALL-E2 生成的图像,右图:DALL-E2 使用此框架生成的图像)。
这比较了生成模型在得到"我的卧室是个猪圈 "的提示时的输出结果,该提示包含语言隐喻"我的卧室一团糟"。
与这一输入相反,普通 DALL/E2 只产生了一个粉红色房间的图像(可能是由于猪的肤色)和一个猪玩具,这表明它没有捕捉到猪圈=杂乱的隐喻。
另一方面,使用该框架的 DALL/E2 能够生成代表这些内容的图像,从这个例子中可以看出现有生成式人工智能的局限性和该框架的有效性。
人与人工智能协作框架和人与人工智能视觉隐喻数据集
HAIVMet(人类-人工智能视觉隐喻)是一个由 6476 张包含视觉隐喻的图像组成的数据集,由下图所示的人类-人工智能协作框架创建。.
创建该数据集的程序如下。
- 选择在生成图像时易于表现的语言隐喻。
- 利用大规模语言模型,有时在专家的帮助下,生成提示(=视觉阐释),输出能捕捉视觉隐喻与相关对象之间关系的图像。
- 通过使用基于扩散的模型和专家过滤低质量图像,从视觉阐述中生成包含视觉隐喻的高质量图像。
让我们一个一个来看看。
有视觉基础的语言隐喻
考虑到并非所有的语言隐喻都能以图像的形式呈现,作者首先手动选择了生成图像时更容易表现的语言隐喻。
例如,"爱 "可以用两个人手牵手并在上面画一个心形来表达,"困惑"可以用一个问号来表达,而 "想法"则可以用一个灯泡在他们头顶上闪耀来表达。
另一方面,表示非视觉现象的项目,如气味和声音,由于难以用图像表示而被排除在外。
利用思维链提示生成可视化阐释
生成模型不能很好地处理含有语言隐喻的提示,因为它们无法为隐含的隐喻表达建模。
因此,作者将注意力转向了思维链(CoT)提示,这是一种提高语言模型推理能力的提示方法。
这就是该模型将问题分解为多个步骤的方式,该框架使用 CoT 提示生成提示,通过 Instruct GPT-3 引出语言隐喻的隐含隐喻和相关对象。.
我们发现,使用这些提示有助于模型输出包含更好视觉隐喻的图像。
不过,虽然这种方法能生成高质量的提示,但并非所有生成的视觉阐释都是完美的,因此我们请了三位研究形象语言的专家作为注释者,对不完美的视觉阐释进行编辑。他们被要求共同对不完整的视觉阐述进行编辑。
下图是编辑提示符的示例。
图中的两幅图像基于一段包含视觉隐喻"事故的消息是她心中的一把匕首 "的文字,并经过视觉阐释和专家编辑的提示。图片由 DALL-E2 根据专家编辑的提示生成。
图 a 显示了通过上述方法生成的提示语"一颗心脏上插着一把匕首,鲜血淋漓,女人眼中充满痛苦 "的输出结果。可以看出,原句中包含的隐喻没有得到很好的体现。
而图 b 则是专家对上述提示"一位女士接听电话,她的心脏插着一把匕首,鲜血淋漓,痛不欲生。从提示语 "一个女人接到一个电话,她的心脏插着一把匕首,鲜血淋漓,女人的眼中充满痛苦 "输出的图像可以看出,它成功地表达了原文的隐喻。
视觉隐喻生成和人工质量检查
最后,在让 DALL-E2 使用上述步骤中生成的提示作为输入生成几幅图像后,专家检查了生成的每幅图像是否准确表达了原始的语言隐喻。
由此收集到的数据集包含 1540 个独特的语言隐喻(及其相关的视觉阐释)和 6476 幅图像,作者将其命名为HAIVMet(人类-人工智能视觉隐喻)。
评估
为了对创建的 HAIVMet 进行评估,本文通过比较 HAIVMet 中包含的图像和使用上述人机协作框架生成的提示输出到现有模型中的图像来进行验证。
用于验证的模型如下
- LLM-DALL-E2:DALL-E2,使用人机协作框架生成的提示作为输入。
- LLM-SD:使用人机协作框架生成的提示作为输入的稳定扩散。
- LLM-SD-Structured: 除了 LLM-SD 外,还使用了先前研究中使用的溶解法
- DALL-E2: 正常 DALL-E2.
- SD:正常稳定扩散
结果如下图所示。
图中左列的隐喻句是与 HAIVMet 图像配对的语言隐喻,而其他每个模型的图像则是将隐喻句作为输入时生成的图像。
从图中可以看出,HAIVMet 的图像能够很好地表达句子中包含的隐喻,例如最下面一行中的隐喻"书籍是灵魂的镜子 "需要书籍、镜子和灵魂(通常被描绘成一个人)的组合,而 HAIVMet 能够很好地表达所有这些元素。显然,HAIVMet 能够很好地表达所有这些元素。
此外,值得注意的是,采用本文提出的人-AI 协作框架的 LLM-DLL-E2、LLM-SD 和 LLM-SD-Structured 所生成的图像都成功地捕捉到了隐喻表达,从而结果证明了该框架的有效性。
摘要
结果如何?在这篇文章中,我们介绍了一个结合了大规模语言模型和扩散模型的人类-人工智能协作框架,该框架被用于创建一个数据集 HAIVMet(人类-人工智能视觉隐喻)。Metaphor),该数据集能够生成包含视觉隐喻的图像。
本文收集的数据集中的大量信息将成为非常重要的资源,有助于了解当前图像生成人工智能的局限性,并在未来建立包括隐喻在内的更具表现力的模型。
此外,作者还提到,他们将进一步研究视觉隐喻的质量与生成图像中提示短语之间的关系,以及不同模型之间的效果有何不同,并非常期待取得进一步的进展。
本文所介绍的数据集和实验结果的详情可参见本文,有兴趣者可参阅本文。
与本文相关的类别