使用GANs恢复面孔:看这些20世纪科学家的照片如何活过来。
三个要点
✔️ 一种新的、优越的盲面修复模式
✔️ 明显优于所有现有模型
✔️ 被人类审查者评为比其他任何模型都高
GAN Prior Embedded Network for Blind Face Restoration in the Wild
written by Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang
(Submitted on 13 May 2021)
Comments: Accepted by CVPR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
简介
虽然在图像修复领域取得了很大进展,但盲目的面部修复(BFR)仍然是一个挑战:BFR比较复杂,因为目前的模型不能很好地概括低质量(LQ)图像所遭受的各种退化(在训练时未知)。BFR更加复杂,因为目前的模型不能很好地概括低质量(LQ)图像所遭受的各种退化(在训练时未知)。有些模型在面对人工扭曲时能很好地恢复,但在其他方面则失败。我们还发现,有些模型给出了更真实的结果,但往往会使面部过度光滑。
在本文中,我们提出了一种新的方法来恢复自然状态下的人脸图像(即经历了复杂的现实生活中的扭曲的图像)。具体来说,我们将深度神经网络(DNN)解码器与生成对抗网络(GAN)整合在一起,并对HQ人脸图像的生成进行了预训练。这个模型建立了一个新的BFR技术水平,能够恢复严重损坏的图像。
GAN Prior Embedded Network (GPEN)
BFR的挑战是如何将输入的LQ图像x∈X正确地映射到其相应的原始HQ图像y∈Y。目前的方法旨在将DNN训练成一个从X到Y的映射函数。这种方法的问题是,这是一个一对多的问题,对于一个给定的x,有许多可能的脸部图像(y1,y2,y3...)。问题是,有许多由于这些DNN是使用目标的每像素损失函数来训练的,最终的解决方案y = DNN(x)趋向于使用目标面的平均值。这导致生成的面孔过度平滑,缺乏细节。在此阅读更多信息:"高功率的超级分辨率是可能的!"。一种全新的超分辨率方法PULSE"。
为了解决这些问题,我们训练了一个GAN先验网络,然后将其嵌入到DNN解码器中以生成HQ图像。如上图所示,图像首先被传递给CNN,CNN将其映射到潜伏空间Z中的所需潜伏代码z。然后,这个潜伏代码z被传递给GAN,以生成HQ图像。与以前的方法不同,GAN执行的是一对一的映射。换句话说,它将潜伏的代码映射到总部图像。然而,需要注意的是,这并不允许GPEN从单一的LQ图像生成多个HQ图像。接下来将介绍架构的细节。
建筑学
GPEN模型的架构结构与UNET(c)相似,前半部分由DNN组成,后半部分由GAN组成。模型的前半部分由DNN组成,后半部分由GAN组成;与UNET一样,前半部分每个块的特征图作为后半部分相应GAN块的输入。 在结合两者之前,GANs被单独预训练以生成HQ人脸图像。之后,这两个块被组合起来,并为BFR进行微调:一个GAN(a)由几个GAN块(b)组成,可以从任何流行的GAN(BigGAN、StyleGAN、PGGAN)中选择。在这里,我们使用StyleGAN-v2 GAN块,它在生成HQ图像方面更胜一筹:与StyleGAN一样,从DNN获得的潜在向量 "z "首先被转换为一个纠缠较少的空间 "W",这个转换的向量 "w "被广播给每个GAN块。转换后的向量 "w "被广播给每个GAN块。在单独训练GAN的过程中,噪声也被广播到每个GAN块,并与特征图相结合。然后,这个噪声被组合模型中的DNN各自的特征图所取代。关于GANs的更多信息,请参见本文。
学习
GANs首先在一个与StyleGANs类似的设置中独立训练。然后将其纳入DNN并用于对抗性损失。LA,内容损失LC内容损失,特征匹配损失LF使用三个损失函数进行训练。敌方的损失由以下公式得出
其中,D是判别器模型,G是发生器模型GPEN,X'是LQ图像,X是地面真相 总部图像,LC是的L1准则。识别图像和生成图像之间的L-2准则之和,LF是生成图像和原始图像的识别器特征图之间的L-2准则之和。
其中T是判别器中的中间层数量。这意味着,综合损失如下
在所有的实验中,我们设定α=1,β=0.02。特征匹配损失使我们能够平衡对抗性损失并恢复更真实/详细的图像。
实验
我们使用FFHQ数据集来训练我们的模型,该数据集包含超过70000张分辨率为1024x1024的HQ图像。使用相同的数据集,我们训练了一个GAN先验网络并对组合网络进行了微调。为了进行微调,LQ图像由FFHQ数据集组合而成;HQ图像被随机模糊、下采样和用高斯噪声压缩。在数学上,退化由以下模型表示:
I, k, nσ, Id分别是输入的人脸图像、模糊核、标准差为σ的高斯噪声和退化的图像。同样,⊗,↓s,JPEGq表示JPEG压缩的2维卷积,标准的s倍下采样器和质量系数q。编码器、解码器和鉴别器模型是用亚当的三种不同学习率来建模的lr编码 = 0.002; lr编码lr颓废lr弃权= 100:10:1是由
GPEN的变体比较
为了研究GPEN组件的重要性,我们在BFR上评估了GPEN的不同变体:GPEN-w/o-ft,一个不对嵌入式GAN进行微调的版本;GPEN-w/o-noise,一个在GAN块训练期间不向其添加噪声的版本;GPEN-noise-add,一个向GAN块添加噪声输入而不是串联的变体;以及GPEN-w/o-noise,一个向GAN块添加噪声输入而非串联的变体。GPEN-noise-add是一个变体,它将噪声输入添加到GAN块中,而不是串联起来。
上表显示了所有这些变体在FFHQ数据集中的PSNR、FID和LPIPS得分;很明显,GPEN模型的表现优于其变体。
与其他GANs的比较
大多数人脸修复GANs是为FSR任务设计的,即从LR图像生成HR图像。因此,我们将GPEN与其他最先进的GANs在FSR、合成BFR和野外BFR方面进行比较。
上表显示了FSR的结果,比较了为BFR设计的模型和专门为FSR设计的模型;LR图像是使用CelebA-HQ数据集生成的。可以看出,没有增加任何东西的双线性模型在PSNR指标上得分最高,说明PSNR不是FSR的合适指标;值得注意的是,GPEN在FID和LPIPS指标上优于其他模型。
上表显示了从CelebA-HQ数据集合成的LQ图像的BFR结果:与FSR一样,GPEN在FID和LPIPS指数上比其他模型高出很多。
为了确定GPEN的实际意义,我们从互联网上收集了1000张LQ人脸图像,并请志愿者评估GPEN和其他SOTA模型的结果以及重建图像的质量。结果表明,由GPEN重建的图像的感知质量要比其他SOTA方法好得多。让我们来看看一些样本图片。
因此,我们可以看到,其他方法的特点是我们一直在谈论的 "过度平滑图像",并没有增加任何视觉细节。
在未来,作者希望扩展GPEN,以允许单个LQ图像的多个HQ输出。例如,他们设想使用一个额外的HQ脸部图像作为参考,这样GPEN可以为不同的参考图像产生不同的HQ输出。
摘要
正如我们所看到的,目前的SOTA模型并不能很好地适用于真实世界的退化图像,但我们的方法克服了这个困难。然而,我们的方法克服了这一困难,而且GPEN具有直接的实际应用。我们的工作可以扩展到其他任务,如面部着色、面部绘画和非面部图像修复。GPEN也可以被扩展到为一个给定的LQ图像生成多个HQ输出。预计未来会有扩展。
与本文相关的类别