赶上最新的AI论文

爱因斯坦的服装?GLIDE,一个强大的生成模型

爱因斯坦的服装?GLIDE,一个强大的生成模型

图像2图像

三个要点
✔️ 我们提出GLIDE,它可以从语言指令中生成多样化和高分辨率的图像。
✔️ 生成的图像忠实于语言指令,超过DALL-E
✔️ 迷你模特儿发布一个迷你模型,方便使用

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
written by Alex NicholPrafulla DhariwalAditya RameshPranav ShyamPamela MishkinBob McGrewIlya SutskeverMark Chen
(Submitted on 20 Dec 2021 (v1), last revised 22 Dec 2021 (this version, v2))
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR); Machine Learning (cs.LG)

code:  
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。

简介

就在一年前,由OpenAI文本生成美丽图像的DALL-E对世界产生了巨大的影响。从那时起,社交网站上出现了大量关于语言导向的条件图像生成模型的兴奋点,这些模型结合了基于GAN的生成模型和CLIP。这些模式吸引了很多人的注意,因为插图和照片等图像可以很容易地用语言表达,但它们的制作往往是劳动密集型的。

另一方面,扩散模型已经超过了GANs的分辨率,正如《我们在图像生成方面击败了BigGAN扩散模型已经超过了GANs的分辨率,如"扩散模型!"中所述。基于这种趋势,在2021年年底,OpenAI宣布了语言导向扩散模型(GLIDE),本文将介绍GLIDE。

让我们看看由GLIDE生成的一些图像。其结果是遵循复杂而详细的语言指令的极高分辨率图像。你可以看到,GLIDE生成的图像并不在训练数据中。此外,我们可以推断出其中一些图像在训练数据中并不存在。例如,我们惊讶地看到,最后一个 "穿着超级英雄服装的爱因斯坦的插图",可以用于想象性的内容。

在文章的第二章描述了GLIDE模型的关键概念,即语言导向的条件法之后,第三章介绍了实验结果(定量和定性的)。

GLIDE(语言学条件扩散模型)

扩散模型

近年来使用的许多扩散模型是基于DDPM(去噪扩散概率模型)。

(图自DDPM)DDPM扩散模型由两个过程组成:扩散过程和反向过程。扩散过程,指的是在图2中不断向X_0添加高斯噪声的过程,从而形成X_T这样的完美噪声。反过程,从X_T开始,预测添加的噪声并将其去除,以产生类似X_0的图像。

要训练的模型是,参数为θ。该模型将带有噪声的图像作为输入,输出高斯分布的平均值和方差。和以前的研究一样,架构是UNet,学习的损失函数是高斯噪声的预测损失

条件性扩散模型

扩散模型是一个简单的模型,它以图像x_t为输入,预测高斯噪声的平均值μ和方差σ。.在此基础上提出了两个条件性扩散模型。我们将分别介绍他们。

首先是对均值µ施加条件限制(上式)。s是一个超参数,控制分类器施加的限制程度。这种方法需要一个独立于扩散模型的分类器。其优点是可以使用基于训练好的扩散模型的任何分类器来实现。缺点是提供两个模型的成本很高。

第二种方法不使用分类器(无分类器指导)。相反,它是以y为条件,并被送入一个噪声预测模型。无分类指导只需要通过两遍模型来预测噪声,不需要分类器。然而,经过训练的模型无法适应新的调理方法,每次都要重新进行训练。

如上所述,这两种条件性方法都有优点和缺点,而且有一个权衡。然而,在这项研究中,我们在实验中同时使用了两种方法。

语言条件方法

在有条件的扩散模型中,进行语言条件化很简单。例如,使用CLIP分类器,它可以用以下公式表示

在这里,语言和图像在CLIP潜在空间中的相似度被计算为梯度,被称为CLIP指导方法。

另一方面,无分类器指导可以通过使用语言指令c而不是标签y来实现,如上式。

实验

由于这项研究的目标是通过口头指令生成高分辨率的图像,因此在训练过程中加入了一些创新内容比如说例如,用一个具有35亿(35亿)参数的扩散模型来制作分辨率为64x64的图像,然后用一个具有15亿参数的上采样扩散模型来制作分辨率为256x256的图像。微调也与现有的扩散模型不同,我们请读者参考第四章(Traning)和官方实现的细节。更多细节,请参考第4章(Traning)和官方实施。

量化实验

图6显示,在扩散模型产生的图像的多样性和保真度之间存在着权衡。在图(a)中,横轴是分辨率,纵轴是多样性指数,随着图表向右移动,多样性指数也随之下降。换句话说,随着分辨率的提高,多样性会减少,只产生类似的图像。无分类器指导被绘制在CLIP指导的右上角,所以它更准确(同样的多样性,更高的分辨率)。

我们使用FID(较小的图像具有较高的分辨率)和IS(较大的图像具有较高的分辨率和多样性)作为生成图像的评价指标。从图(b)中我们可以看到,随着IS分数(这里被认为是多样性的衡量标准)的增加,FID恶化,表明在多样性和分辨率之间存在着权衡。

在图(c)中,CLIP分数衡量了生成的图像和口头指示之间的匹配程度,可以看出,CLIP指导能够保持分辨率,同时增加CLIP分数(这是符合规定的,因为它在训练期间被用作目标函数)。

定性实验

除了这里显示的图像,本文还有许多其他有趣的例子。然而,由于公众对安全问题越来越关注,OpenAI已经发布了减少参数和过滤数据的模型,例如删除人。因此,公布的模型可能无法生成示例图像或生成人。

 

文字转图像文字转图像

第一张图片显示了真实性水平,包括水中的倒影,第二张图片显示了杰作星空中的狐狸。第二张是杰作 "星空 "中的一只狐狸,它显示了当GLIDE成为一个强大的工具时,艺术家可以创造出各种风格。

图像编辑

利用扩散模型从噪声中生成图像的能力,可以在生成图像之前掩盖部分图像(噪声),使图像编辑更容易。通过遮盖你想编辑的图像部分(绿色部分)并输入语言指令,你可以创建你想要的图像。例如,当我们在桌子上创建一个花瓶时,我们也能创建花瓶的阴影,我们认为这证明了它是一个强大的图像编辑工具。

摘要

你怎么看?你认为GLIDE还可以如何用于生成语言中的高分辨率图像?

从2021年1月的DALL-E到2021年12月的GLIDE,语言条件下的图像生成模型的性能有了明显的改善。我个人预计,下一个研究方向将是开发用于视频生成和3D模型的语言条件生成模型。虽然我们不能说这是人工智能模型第一次能够理解人类语言,但这无疑是一个进步,我们期待着进一步发展。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们