一个新的GAN，其编辑性能得到了改善!

生成对抗网络(GAN) 14/06/2022

三个要点
✔️ 能够对每个语义区域进行编辑的GANs
✔️ 建议的学习框架，可以使用语义掩码按语义区域分离潜空间
✔️ 与现有的图像编辑方法相结合，进行更详细的编辑

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
written by Yichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen
(Submitted on 4 Dec 2021 (v1), last revised 29 Mar 2022 (this version, v3))
Comments: Camera-ready for CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

StyleGAN不仅能够产生高质量的图像，而且还对每个潜伏变量进行了从粗到细的特征调节，可以用来编辑图像的风格。然而，StyleGAN中潜在变量的含义相对模糊，不同的属性相互关联，在尝试属性操作或其他编辑时，可能会导致图像中的意外属性或部分被编辑。

一些研究提出了新的GANs来解决这个问题，但这些都是针对全局属性的操作，没有一个能实现局部操作。

局部操作是指，例如，在脸部图像的情况下，只编辑眼睛或只编辑头发。对于现有的模型，这些操作可能会影响模型的其他部分，即使你试图只编辑眼睛。

这里提出的SemanticStyleGAN使用语义掩码将潜伏空间划分为独立的语义区域，从而能够进行局部操作。

上图显示了使用SemanticStyleGAN编辑脸部图像的结果。

最上面一行显示的是被编辑的语义区和参考图像，表明只有指定的语义区被成功编辑，其他区域没有受到明显影响。

建议的方法

在学习StyleGANs的过程中，已经发现了两个挑战，同时将它们按领域分开。

如何分离不同的区域。
如何使每个领域有意义。

对于1，我们通过使用每个区域的局部生成器来处理这个问题，并以这样的方式对它们进行结构化处理，最终的输出是由它们组合而成的；对于2，我们使用一对RGB图像和一个语义掩码结合在一起作为输入到鉴别器，以及该方法是基于学习RGB图像和语义掩码的组合分布。

下图给出了学习框架的总体概况。

现在我们将分别讨论局部发生器gk_、融合模块、渲染网络R和学习方法。

本地发电机

上面的图片显示了本地发电机的结构。

如果输入是一个坐标编码的傅里叶特征和一个潜伏变量w，那么输出是一个深度值_dk和一个特征_fk。

潜变量w也被分为wbase、wsk和wtk。通过分别使用这些作为输入，可以分别学习粗略、结构和纹理，并且在推理过程中可以对每个元素进行操作。

然而，由于本地生成器处理每个像素，准备256x256的傅里叶特征，因为它们将在计算上非常昂贵。因此，输入尺寸被缩小，傅里叶特征被设置为64x64，以在性能和计算复杂性之间取得平衡。

融合模块

本地发生器的输出深度值d_k和特征值f_k融合模块中进行融合。

首先，如上式中的深度值d_k来生成语义掩码m。

然后，这个语义掩码m被用来生成一个特征图f，使用以下公式。

特征图f只需与语义掩码m和本地生成器输出的特征_fk相乘，逐个元素。这就产生了一个（类的数量）x256x256的语义掩码m和一个特征图f，用来训练渲染网络R，接下来介绍。

渲染网络 R

渲染网络R使用了StyleGAN2生成器的一个稍加修改的版本。

上面的图片显示了渲染网络R的整体情况。

StyleGAN2风格的调制被排除在外，唯一的输入是一个特征图。输入的特征图被调整为16x16，这样就可以捕捉到广泛的类间特征。

更多的输出分支被用来获得一个256x256的RGB图像和一个语义掩码作为输出。每个分支都输出前一阶段输出图像的残差。对较小的分辨率输出进行重复的上采样和合并，以获得最终的分辨率输出。

学习

为了学习RGB图像和语义掩码的联合分布，它们都被用来作为判别器的输入。

然而，人们发现，由于语义掩码的梯度较大，简单地将两者结合起来并输入语义掩码是行不通的。

因此，学习是通过使用结构如下图所示的鉴别器进行的。

这种配置使梯度在网络的分割侧受到R1正则化的惩罚，这样就可以进行训练。下面的正则化也被添加到损失函数中，以确保通过上采样得到的最终掩码不会明显偏离粗略掩码。

其中∆m是渲染网络R中语义掩码侧支的输出。

最后的损失函数如下。

它基本上是StyleGAN2的损失函数，其中加入了上述语义掩码的正则化和鉴别器的R1正则化。

实验结果

潜在的空间是否被适当隔离？

首先，为了检查是否可以为语义分割的每个区域分别生成图像，下面的图像是在逐渐增加区域的成分时生成图像的结果。所示的伪深度图是针对新增区域的。

它表明，每个区域都可以独立生成。它还表明，尽管没有添加三维信息，但伪深度图能够学习有意义的形状。

编辑能力

SemanticStyleGAN使用语义掩码将潜伏空间分隔成若干区域，以便于图像编辑。在这里，我们检查了在各种编辑任务中，与StyleGAN2（用FFHQ训练）相比，可控性是否得到了改善。首先，要编辑一个真实的图像，需要将其嵌入到GAN的潜空间中。这里，采用了ReStylepsp方法来获得与图像相对应的潜变量。

下表定量地比较了用ReStylepsp获得的潜变量重建图像的结果。

参考资料。底行的StyleGAN2是在SemanticStyleGAN所训练的同一数据集（CelebA-HQ）上训练的结果。对这些重建结果的定量研究表明，StyleGAN2和在重建过程中，结果显示，性能与StyleGAN2相当。

为了检查编辑图像的能力是否真的提高了，我们用典型的编辑方法InterFaceGAN和StyleFlow进行了比较。

上面的图片显示了比较结果。

用StyleFlow和InterFaceGAN创建了属性操作的模型，并显示了四个属性（微笑、光头、刘海和胡须）的编辑结果图像和原始图像之间的差异图，这样局部的区域就被操作了。

使用StyleGAN2的结果显示，由于潜伏空间的纠缠，即使是待编辑区域以外的不相关区域也被修改了。相比之下，使用SemanticStyleGAN的结果显示，每个区域的潜在空间都是分开的，因此不相关的部分不会被修改，只有要编辑的部分可以被操作。

摘要

在这篇文章中，介绍了CVPR2022中采用的SemanticStyleGAN。

该方法通过使用语义掩码按语义区域分离潜在空间来提高局部编辑的性能。

论文显示，它在全身图像的数据集以及脸部图像的数据集上都能很好地工作，比如说。然而，这种方法为每个类创建了一个本地生成器，其问题是它不能扩展到有太多类的数据集。另外，虽然不限于这项研究，但GANs的性能和可控性的提高会导致人们恶意使用这些技术。人类很难分辨出使用当前GAN技术合成的图像是否是合成的。正如本文所提到的，我们认为拥有确定图像是否是合成的技术也是非常重要的。