DALLE-2有了自己的语言!
三个要点
✔️ 用黑箱方法调查DALL-E2处理的专有语言
✔️ 作为一种专有语言的一致性值得怀疑
✔️ 模型可解释性和安全性方面的挑战
Discovering the Hidden Vocabulary of DALLE-2
written by Giannis Daras, Alexandros G. Dimakis
(Submitted on 1 Jun 2022)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL); Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
在2021年和2022年之间,一些从文本生成图像的技术,即所谓的 "文本到图像",已经被宣布,并吸引了大量的关注。而且它们正变得越来越容易获得。直到现在,从文本中生成图像的技术还不普遍,而且有很高的门槛。然而,随着2022年6月DALL-E mini图像生成系统的提供,现在可以尝试图像生成;DALL-E mini生成的各种图像已经在推特上发布。阅读本文的许多人可能已经使用了DALL-E mini,虽然它不像DALL-E2或Imagen那样完整,但许多人可能对由文本生成图像的体验感到惊讶。
月和年 | 模型名称 | 开发团队 |
2021年1月。 | DALL-E。 | 兴业银行 |
2021年12月。 | 幻灯片 | 兴业银行 |
2022年4月。 | DALL-E2。 | 兴业银行 |
2022年5月。 | 形象 | 谷歌。 |
2022年6月。 | 党员。 | 谷歌。 |
在这个问题上,我们提出了一篇关于DALL-E2的论文,它是引起很多人关注的图像生成模型之一。在本文中,我们发现在DALL-E2中,当输入那些乍一看没有意义的句子(荒谬的提示)时,这些句子和生成的图像之间存在一定的关系。换句话说,我们发现在DALL-E2中,即使是对人类没有意义的句子()也有DALL-E2特有的词汇。
例如,当把 "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons "这句话输入DALL-E2时,就会产生如下的图像。结果显示,DALLE-2处理自己的词汇,'Apoploe vesrreaitais'意为'鸟','Contarra ccetnxniams luryca tanniounons'意为'昆虫:'。换句话说,在DALLE-2自己的词汇中,该提示可能意味着 "鸟吃昆虫"。
如何找到DALL-E2自己的语言
为寻找DALL-E2所处理的语言而实施的方法是黑箱法。该方法利用输入的句子和输出的图像来寻找单词和单词之间的关系以及它们的词序。
例如,如果你想知道 "蔬菜 "这个词的含义,你在DALL-E2中输入以下句子。
- '一本写有蔬菜字样的书。
- 两个人在谈论蔬菜,有字幕。
- '这个词的蔬菜用10种语言写成。
DALL-E2有可能为这些输入生成带有文字的图像。然而,正如DALL-E2论文和其他一些报告中所报道的,所描述的句子似乎是人类无法理解的。例如,在DALL-E2中输入 "两个农民在谈论蔬菜,有字幕。"这句话会产生如下图(a)所示的图像。从这个图(a)可以看出,这些字对人类来说是完全无法理解的。
然而,我们在本文中发现的是,这些词有意义,是DALL-E2的独特词汇。在本文中,"vicootess "和 "Apoploe vesrreaitais "这两个词,即图(a)中生成的图像中的词,被输入到DALL-E2。这样看来,如图(b)和(c)所示,'Vicootess'是指蔬菜,'Apoploe vesrreaitais'是指鸟。换句话说,图(a)似乎显示了两个农民在谈论鸟类损害他们的蔬菜。
因此,当DALL-E2再次根据DALL-E2生成的图像中的词语生成图像时,可以假设DALL-E2处理的词语存在一致性(意义)。
然而,该文件也指出,这种方法并不总是有效。换句话说,似乎可能会产生不一致的随机图像。请注意,可以通过API查询DALL-E2。
DALL-E2的独特语言特征。
为了研究在DALL-E2中发现的独特词汇的特点,已经进行了几次实验。第一个问题是,DALL-E2处理的独特词汇是否可以像人类语言那样,在一个句子中由两个词组成。'Apoploe vesrreaitais eating Contarra'使用两个词'Apoploe vesrreaitais'表示'鸟','Contarra ccetnxniams luryca tanniounons'表示'昆虫'或'害虫'ccetnxniams luryca tanniounons "并将其输入DALL-E2。结果,确认该系统生成了一个鸟类吃昆虫的图像,如下图所示。虽然这种图像并不总是生成,但我们已经确认有时会生成这种图像。
接下来,在 "鸟 "的 "Apoploe vesrreaitais "中加入描述图像风格的词(绘画、卡通、三维渲染、线条艺术),以查看 "Apoploe vesrreaitais "是否与一个视觉概念相对应。结果如下图所示,似乎这个词有时会变成 "飞虫 "而不是 "鸟",如(c)和(d)。
此外,还调查了生成的图像中的文本和由该文本生成的图像之间的一致性。例如,如上所述,输入文本 "两个农民在谈论蔬菜,有字幕。"产生了一个图像,其中两个农民在谈论鸟类破坏他们的蔬菜。蔬菜",但也有 "Apoploe vesrreaitais"(鸟类)的字样,这似乎是最合理的情况,被添加到生成的图像中。换句话说,DALL-E2的单词(Apoploe vesrreaitais),乍一看似乎无法理解,但在DALL-E2的视觉下,却变成了一个有意义的单词(鸟)。
再比如,如果把 "两只鲸鱼在谈论食物,有字幕。"这句话输入DALL-E2,就会生成两只鲸鱼和 "Wa ch zod ahaakes rea "这样的句子,如下图所示(左)。该句子的生成情况如下图所示(左)。当这句话被输入DALL-E2时,"海鲜 "被显示出来,如下图(右)所示,它与原始生成的图像一致,是一条直线。这样一来,并不是说不相关的句子会被生成,但似乎适合于情况的一致的句子会被生成。
DALL-E2的问题。
还提到了一些被认为需要进一步研究的主题。首先,本文中被当作DALL-E2自己的语言的词(如Apoploe vesrreaitais)似乎被选择得相对一致:它们每次被输入DALL-E2时往往会改变其含义。换句话说,似乎Apoploe vesrreaitais并不总是指同一种 "鸟",有时是指不同的动物,例如。
这一点一直是Twitter上的热门话题,研究人员对是否可以判断为一种独特的语言意见不一,Twitter上也有关于这里介绍的单词的先例(相关推文*英文),它们的表现非常不同。
论文指出,这种行为在模型的可解释性和安全性方面是一个主要的问题,需要进行更多的基础研究来了解这些现象,以便创建稳健的图像生成模型,使其行为符合人类的预期。
摘要
这是一篇关于图像生成模型的高度专题论文,该模型让世界大吃一惊,可能已经获得了一种新的 "自己的语言"。如此创新和如此高调的技术可能是,因为它已经在许多网络媒体中被引入。然而,这些高性能的图像生成模型,不仅包括DALL-E2,还包括Imagen,有许多我们不了解的现象,人们担心会有意外的利用。由于这个原因,它们不向公众开放。作为研究,这是一项有趣的技术,显示了机器学习的潜力,但要将其投入实际使用可能还需要一些时间。尽管如此,过去一年的进展令人眼花缭乱,而未来看起来越来越令人振奋。
与本文相关的类别