
爱因斯坦的服装?GLIDE,一个强大的生成模型
三个要点
✔️ 我们提出GLIDE,它可以从语言指令中生成多样化和高分辨率的图像。
✔️ 生成的图像忠实于语言指令,超过DALL-E
✔️ 迷你模特儿发布一个迷你模型,方便使用
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
written by Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen
(Submitted on 20 Dec 2021 (v1), last revised 22 Dec 2021 (this version, v2))
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。
简介
就在一年前,由OpenAI文本生成美丽图像的DALL-E对世界产生了巨大的影响。从那时起,社交网站上出现了大量关于语言导向的条件图像生成模型的兴奋点,这些模型结合了基于GAN的生成模型和CLIP。这些模式吸引了很多人的注意,因为插图和照片等图像可以很容易地用语言表达,但它们的制作往往是劳动密集型的。
另一方面,扩散模型已经超过了GANs的分辨率,正如《我们在图像生成方面击败了BigGAN吗?扩散模型已经超过了GANs的分辨率,如"扩散模型!"中所述。基于这种趋势,在2021年年底,OpenAI宣布了语言导向扩散模型(GLIDE),本文将介绍GLIDE。
让我们看看由GLIDE生成的一些图像。其结果是遵循复杂而详细的语言指令的极高分辨率图像。你可以看到,GLIDE生成的图像并不在训练数据中。此外,我们可以推断出其中一些图像在训练数据中并不存在。例如,我们惊讶地看到,最后一个 "穿着超级英雄服装的爱因斯坦的插图",可以用于想象性的内容。
在文章的第二章描述了GLIDE模型的关键概念,即语言导向的条件法之后,第三章介绍了实验结果(定量和定性的)。
GLIDE(语言学条件扩散模型)
扩散模型
近年来使用的许多扩散模型是基于DDPM(去噪扩散概率模型)。
(图自DDPM)DDPM扩散模型由两个过程组成:扩散过程和反向过程。扩散过程,指的是在图2中不断向X_0添加高斯噪声的过程,从而形成X_T这样的完美噪声。反过程
,从X_T开始,预测添加的噪声并将其去除,以产生类似X_0的图像。
要训练的模型是,参数为θ。该模型将带有噪声的图像作为输入,输出高斯分布的平均值和方差。和以前的研究一样,架构是UNet,学习的损失函数是高斯噪声的预测损失
。
条件性扩散模型
扩散模型是一个简单的模型,它以图像x_t为输入,预测高斯噪声的平均值μ和方差σ。.在此基础上提出了两个条件性扩散模型。我们将分别介绍他们。
首先是对均值µ施加条件限制(上式)。s是一个超参数,控制分类器施加的限制程度。这种方法需要一个独立于扩散模型的分类器。其优点是可以使用基于训练好的扩散模型的任何分类器来实现。缺点是提供两个模型的成本很高。
第二种方法不使用分类器(无分类器指导)。相反,它是以y为条件,并被送入一个噪声预测模型。无分类指导只需要通过两遍模型来预测噪声,不需要分类器。然而,经过训练的模型无法适应新的调理方法,每次都要重新进行训练。
如上所述,这两种条件性方法都有优点和缺点,而且有一个权衡。然而,在这项研究中,我们在实验中同时使用了两种方法。
语言条件方法
在有条件的扩散模型中,进行语言条件化很简单。例如,使用CLIP分类器,它可以用以下公式表示
在这里,语言和图像在CLIP潜在空间中的相似度被计算为梯度,被称为CLIP指导方法。
另一方面,无分类器指导可以通过使用语言指令c而不是标签y来实现,如上式。
实验
由于这项研究的目标是通过口头指令生成高分辨率的图像,因此在训练过程中加入了一些创新内容比如说例如,用一个具有35亿(35亿)参数的扩散模型来制作分辨率为64x64的图像,然后用一个具有15亿参数的上采样扩散模型来制作分辨率为256x256的图像。微调也与现有的扩散模型不同,我们请读者参考第四章(Traning)和官方实现的细节。更多细节,请参考第4章(Traning)和官方实施。
量化实验
图6显示,在扩散模型产生的图像的多样性和保真度之间存在着权衡。在图(a)中,横轴是分辨率,纵轴是多样性指数,随着图表向右移动,多样性指数也随之下降。换句话说,随着分辨率的提高,多样性会减少,只产生类似的图像。无分类器指导被绘制在CLIP指导的右上角,所以它更准确(同样的多样性,更高的分辨率)。
我们使用FID(较小的图像具有较高的分辨率)和IS(较大的图像具有较高的分辨率和多样性)作为生成图像的评价指标。从图(b)中我们可以看到,随着IS分数(这里被认为是多样性的衡量标准)的增加,FID恶化,表明在多样性和分辨率之间存在着权衡。
在图(c)中,CLIP分数衡量了生成的图像和口头指示之间的匹配程度,可以看出,CLIP指导能够保持分辨率,同时增加CLIP分数(这是符合规定的,因为它在训练期间被用作目标函数)。
定性实验
除了这里显示的图像,本文还有许多其他有趣的例子。然而,由于公众对安全问题越来越关注,OpenAI已经发布了减少参数和过滤数据的模型,例如删除人。因此,公布的模型可能无法生成示例图像或生成人。
文字转图像文字转图像
第一张图片显示了真实性水平,包括水中的倒影,第二张图片显示了杰作星空中的狐狸。第二张是杰作 "星空 "中的一只狐狸,它显示了当GLIDE成为一个强大的工具时,艺术家可以创造出各种风格。
图像编辑
利用扩散模型从噪声中生成图像的能力,可以在生成图像之前掩盖部分图像(噪声),使图像编辑更容易。通过遮盖你想编辑的图像部分(绿色部分)并输入语言指令,你可以创建你想要的图像。例如,当我们在桌子上创建一个花瓶时,我们也能创建花瓶的阴影,我们认为这证明了它是一个强大的图像编辑工具。
摘要
你怎么看?你认为GLIDE还可以如何用于生成语言中的高分辨率图像?
从2021年1月的DALL-E到2021年12月的GLIDE,语言条件下的图像生成模型的性能有了明显的改善。我个人预计,下一个研究方向将是开发用于视频生成和3D模型的语言条件生成模型。虽然我们不能说这是人工智能模型第一次能够理解人类语言,但这无疑是一个进步,我们期待着进一步发展。
与本文相关的类别