赶上最新的AI论文

你可以用文字输入告诉GANs要产生什么样的图像!

生成对抗网络(GAN)

三个要点
✔️ 将StyleGAN的生成能力与OpenAI的CLIP丰富的视觉语言表示相结合
✔️ 有效的基于文本的图像处理的三种新方法
✔️ 对基于文本的图像操作的控制明显多于SOTA。

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
written by Or PatashnikZongze WuEli ShechtmanDaniel Cohen-OrDani Lischinski
(Submitted on 31 Mar 2021)
Comments: 
18 pages, 24 figures
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Graphics (cs.GR); Machine Learning (cs.LG)

code:  

首先

生成对抗网络(GANs)已经将图像生成的艺术提升到了一个前所未有的水平,使StyleGAN等模型能够生成高分辨率的图像,捕捉到现实中的最小细节。一个重要的属性是以各种方式隔离和处理图像的能力。然而,利用这一特性是一项繁琐的、成本相当高的活动。事实上,众所周知,StayleGAN是很好的,但你可能经历了很多努力,甚至在大多数时候尝试它。你可能需要大量的注释数据和一个强大的预训练的分类器。另外,为某种操作而调整的模型只能在该特定方向上工作,这限制了模型的能力。

在本文中,我们介绍了一种使用GANs进行图像处理的简单方法。具体来说,我们将最近推出的对比性语言-图像预训练(CLIP)模型与StyleGAN相结合:CLIP已经在4亿个图像/文本对上进行了训练,并使用自然语言来表示各种各样的视觉概念。它可以用来表示各种各样的视觉概念。我们的方法可以很容易地做到这一点,但该模型产生的结果不是由其他StyleGAN操作产生的。

背景

剪辑

CLIP是一个多模态模型,它可以学习寻找图像和其相应文本之间的语义相似性。该模型由OpenAI在从互联网上检索的4亿个图像/文本对上进行训练;CLIP模型非常强大,在各种数据集上实现了最先进的零照图像生成性能。

StyleCLIP文本驱动的操作

结合StyleGAN的生成能力和CLIP丰富的视觉语言表示,我们研究了三种类型的图像操作:StyleGAN的中间潜空间表示被证明具有离散的图像属性,对图像操作是有用的。我们的方法中,有两种利用了W+潜像表征,而剩下的一种利用了S潜像表征,这似乎更加离散。

潜在的优化

这种方法试图直接优化潜伏代码以执行所需的图像操作。一个任意的文本提示't',用e4e'倒置的源潜空间ws',以及被操纵的潜在空间'w'上。

其中DCLIP是文本提示的CLIP嵌入和生成器生成的图像之间的余弦距离。L2规范控制与输入图像的相似性。

上面的方程是身份损失,其中R是预先训练好的ArcFace,一个用于人脸识别的网络。身份损失是通过R为输入图像和校正图像生成的嵌入的余弦相似度来计算的。

λL2λ身份证控制L2和ID的损失比例。 上述优化问题通过梯度下降法解决,以获得最优的操纵潜空间。上图显示了经过200-300次迭代后得到的几个样本,以及它们的(λL2, λ身份证)与结果一起。这是一个非常通用的过程,但它很耗时

潜在的映射器

事实证明,StyleGAN的不同层负责图像的不同细节。因此,我们将层分为三组(细、粗、中),将潜伏代码w分为三个不同的全连接的制图员网络。输出的映射-Mt(w)-被串联起来,添加到初始潜伏代码中,并输入StyleGAN。和以前一样,为了保持图像质量和特性,我们最小化以下函数

二级规范和身份损失阻止了图像的显著变化,而CLIP损失则阻止了必要的变化发生在绘图者网络。在本文中几乎所有的例子中,都有这样的情况。λL2= 0.8, λ身份证= 0.1使用以下公式。

上面的图片显示了以这种方式操纵发型的结果。几乎在所有情况下,身份和重要的视觉特征都被保留下来。下图显示,这种方法对多个图像属性{直、短}、{直、长}具有鲁棒性。这种控制方式在以前的模型中没有出现过。此外,不同图像之间Mt(w)的高余弦相似度表明,不同图像之间的操作方向相似。

全球方向

在这里,作者想开发一个更通用的图像操纵器,可以使用StyleGAN风格空间'S'进行更精细的离散操纵。更确切地说s∈S关于G(s + α∆s) 找到操作∆s的方向,使得图像是由文本提示't'所指定的操作产生的。这里,α控制了操纵的数量。

在这里,我们的目标是使用CLIP的语言-图像嵌入,将文本提示编码成一个向量Δt,然后映射到一个操作方向Δs。由于一个图像可以有多个属性,而一个属性可以对应多个图像,CLIP的联合嵌入空间需要区分图像嵌入流形(I)和文本嵌入流形(T);由于CLIP在训练期间将嵌入归一化,只有嵌入方向是有效的。在一个训练有素的领域,T和I的方向对于大的余弦相似性,几乎完全相同。

为了从自然语言中获得一个合适的∆t,我们需要减少文本嵌入的噪声,并获得一个稳定的T的方向。为了做到这一点,我们使用了一种叫做提示工程的方法,即把具有相同含义的多个句子送入编码器,并对所得的嵌入进行平均。例如:"一张{车}的照片","一张裁剪过的{车}的照片","一张清晰的{车}的照片","一张{车}的照片",等等,这些句子的意思都差不多。

给出一对图像G(s)和G(s+α∆s),让它们在图像(I)中的嵌入用i和i+∆i表示。我们的目标是利用操纵方向∆s获得一个与∆t相一致的变化∆i。要做到这一点,我们需要计算每个通道c和s中的∆i之间的关联。这可以用100个图像对来完成,其中有∆ic而我们是通过计算在∆i上的平均投影来做到这一点的。相关性 ∆i。∆i的平均投影cβ与图像中的不连贯性成正比,其效果可以在上面的例子中看到(对于 "灰发 "这个文本)。

以这种方式进行的非人类图像处理看起来像下面的图片。

摘要

在这篇文章中,我们介绍了三种已经成功用于基于文本查询的图像处理的方法。这些方法所产生的结果是迄今为止现有的方法所无法看到的。一个主要的限制是,由于这些方法是基于CLIP的,它们不能很好地推广到CLIP没有被充分学习或训练的空间。尽管如此,它们对重要的、不断增长的文本编辑领域做出了重大贡献。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们