赶上最新的AI论文

GAN反转与变形金刚!

GAN反转与变形金刚!

生成对抗网络(GAN)

三个要点
✔️ 基于变换器的GAN反转方法
✔️ 在重建质量、编辑能力和模型尺寸方面优于现有方法
✔️ 也可以用参考图像进行编辑。

Style Transformer for Image Inversion and Editing
written by 
Xueqi HuQiusheng HuangZhengyi ShiSiyuan LiChangxin GaoLi SunQingli Li
[Submitted on 4 Dec 2021 (v1), last revised 29 Mar 2022 (this version, v3)]
Comments: Accepted by CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

最近,StyleGAN已经能够生成高分辨率的图像,并且对其应用于实景图像的各种编辑任务进行了大量的研究。为了编辑实景图像,有必要使用一种被称为GAN反转的方法从实景图像中获得StyleGAN的潜变量。用GAN反转获得潜变量时有两个主要的重要方面。

  1. 忠实地重建原始图像的能力(重建能力)。
  2. 能够只操作你想编辑的属性,同时保留原始身份和细节(可编辑性)。

同时满足这些要求是一个困难的问题。

嵌入。的StyleGAN。在潜在的空间里。Z-空间、W-空间、W+空间,等等。有几个候选人。现有的研究表明,这些候选者的选择很重要:Z空间和W空间由一个512维的向量表示,而W+空间由18个向量表示,每个向量有512维。这使得W+空间在表现图像细节和重构的能力上更胜一筹,但也使得独立的属性编辑变得困难,因为各种维度往往与单一属性交织在一起。

为了同时提高重建和编辑能力,本文提出了一种基于变换器的GAN反转方法,称为StyleTransformer。该方法涉及到嵌入W+空间,Transformer在包括自然语言处理在内的各个领域都取得了良好的效果。

上面的图片显示了使用StyleTransformer输出重建图像和编辑图像的结果。可以看出,重建质量很高,编辑工作做得很好。

该方法还可以准备一个参考图像,并将目标图像的属性转移到参考图像的某些属性。

建议的方法

下图给出了风格转化器框架的概述。

首先,输入图像由编码器E生成,具有多个分辨率的图像特征F1~F3;从MLP输出的N个不同的查询通过Transformer Block访问这些特征,这些特征被逐渐更新到生成器中的潜变量w。

编码器E、MLP、Transformer Block的所有参数和初始值zn都经过训练,这样就可以输出最佳潜变量w。

变压器组

上面的图片显示了变压器块的结构。

该结构类似于传统的变压器,其设计包括多头自留地和交叉留地。剩余连接、归一化和FFN模块也是指传统变压器的结构。

在这里,一个典型的Transformer解码器经常随机初始化输入的查询标记,并将其作为参数保存。然而,W空间的分布很复杂,与高斯分布有很大的不同,所以用一般的方法训练它是行不通的。

因此,我们在StyleGAN中使用预先训练好的MLP来设计潜变量zn到wn的映射,使其不至于偏离W空间太远。此外,预训练的MLP不是固定的,而是在训练中进行微调。

多头自留地

计算方法类似于传统变压器的计算方法。

在 "自我关注 "中,学习的过程是寻找任意的输入查询对之间的关系,并将它们联系在一起。这就抓住了任意潜在变量 wn 之间的关系。

多头交叉注意

单独的自我关注只看潜变量之间的关系,不涉及任何图像特征。

然后,多头交叉注意被用来从不同分辨率的图像特征F1~F3中获取信息。具体来说,关键是和来自图像特征的值,并使用自我关注的结果来计算查询。

学习

在训练过程中,StyleGAN发生器G是固定的,所有其他参数都是调整的。

对于损失函数,使用了一种类似于GAN反转的方法,称为pSp。更多信息请见pSp论文

使用风格转换器进行图像编辑。

正如一开始提到的,在GAN反演中,不仅要有良好的重建性能,而且要有良好的编辑能力。

除了用标签编辑属性外,Style Transformer还允许你用参考图像编辑特定区域。

用参考图像进行编辑

一个新的转化器块被训练为用参考图像进行编辑。

首先,训练一个属性分类器C,它将W+潜变量作为输入,并为每个属性输出嵌入式特征和标签。

接下来,一个新的变压器块被训练出来,如上图所示。首先,参考图像和目标图像被StyleTransformer分别嵌入到潜在空间W+中。然后,参考图像的潜变量被输入到转化器块的值和键中,目标图像的潜变量被输入到查询中,并输出新的潜变量我们。

通过计算损失函数,将需要编辑的属性带到参考图像的属性中,其余的带到目标图像中,就可以生成一个具有所需编辑的潜变量WE。

实验结果

定性评价

首先,现有方法的结果、重建结果和属性编辑都显示在下面的图片中。

 

第二行显示的是重建结果。pSp是一种GAN反转方法,具有高质量的重建结果,但所提出的方法的结果似乎与pSp的结果一样好。另外,e4e是一种具有高编辑能力的GAN反演方法,重建结果的质量似乎没有那么高。

从编辑结果来看,拟议的方法似乎比e4e更能分离每个属性,e4e被认为具有更好的编辑能力。

在汽车图像以及人脸图像上进行了实验,表明重建的质量和编辑的结果的质量都很高。

量化评价

下表显示了与现有方法进行定量比较的结果。

重建结果以像素之间的相似度(MSE,LPIPS)和真实与生成的图像分布之间的距离(FID,SWD)进行评估,所提出的方法在所有指标上都具有最高的结果。在FID和SWD方面也对编辑结果进行了评估,其中提议的方法具有最高的结果。

除了得到的图像质量高之外,它在模型大小和推理时间方面也优于其他模型,在这里列出的所有指标上都优于pSp和e4e。

用参考图像进行编辑

用参考图像编辑后得到的图像是上面的图像。虽然多样性稍低,但只有参考图像的某些属性会反映在原始图像中。

摘要

本期介绍了CVPR 2022所采用的 "风格转换器"。

该方法不仅在重建和编辑能力方面有很高的性能,这两方面在GAN反转中都很重要,而且模型规模小,推理时间短,在很多方面都超过了以前的方法。

未来的GAN反演方法也将受到关注,因为GAN反演技术的进步将实现快速、高质量的图像编辑。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们