赶上最新的AI论文

用于超级分辨率技术的预训练GAN模型

用于超级分辨率技术的预训练GAN模型

生成对抗网络(GAN)

三个要点
✔️ 使用预先训练好的GAN模型进行超级分辨
✔️ 以64倍的超分辨率展示了良好的质量结果
✔️ 展示了预训练的GAN模型应用于各种任务的潜力

GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
written by Kelvin C.K. ChanXintao WangXiangyu XuJinwei GuChen Change Loy
(Submitted on 1 Dec 2020)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。

简介

GANs不仅用于图像生成和图像编辑,而且还有研究(https://ai-scholar.tech/articles/gan/fewshotpartsegmentation)将其内部表示转移到其他计算机视觉任务。

在这篇文章中,我们介绍了我们在高倍率(8x-64x)下的超级分辨率的工作,这通常很难实现,通过利用预先训练的GAN模型的知识。所提出的方法(GLEAN)成功实现了高倍率下的超分辨率,例如

建议的方法(GLEAN

所提出的方法,即生成性LatEnt bANk(GLEAN),其架构如下图所示。

在这个图中,我们以超级分辨率为例,输入图像是32x32,输出图像是256x256。

关于编码器

首先,使用RRDBNet对输入的低分辨率(LR)图像(图中对应于$E_0$)提取特征$f_0$。

然后将卷积过程迭代地应用到特征上,以获得分辨率较低的特征。

$f_i=E_i(f_{i-1}), i\in {1,...。,N}$

这里,$E_i$代表Stride 2-Stride 1的卷积。根据此时获得的特征,我们得到一个以StyleGAN潜伏向量$c_i$为一列的矩阵$C$。

$C=E_{N+1}(f_N)$

这些特征和潜在向量被送入基于预训练的StyleGAN的生成性潜在库。

关于生成性潜伏库

为了从预训练的StyleGAN中获得关于图像的先验知识,以下三个修改被用作遗传潜伏库。

  • 对于每个区块$S_0,。,S_{K-1}$,给每个区块$S_i$一个潜在向量$c_i$作为输入。
  • 为了对潜伏向量之外的其他图像特征进行调节,我们使用额外的卷积来获得以下特征

  • 我们没有直接从StyleGAN的Generator中生成高分辨率的图像,而是将Latent Bank特征$g_i$和特征从编码器传递给解码器,以更好地融合这两个特征。

总的来说,生成性潜伏库的目的是通过对StyleGAN引入最小的修改和额外的卷积层来获得对超级分辨率有用的知识。

关于解码器

对于3x3卷积$D_i$及其输出$d_i$,解码器由以下公式定义。

我们使用标准的L2损失、感知损失和对抗性损失来进行训练损失。学习损失的设置与现有研究ESRGAN相似,主要区别在于我们引入了一个预先训练好的StyleGAN。

实验结果

在我们的实验中,我们使用预训练的StyleGANStyleGAN2

定性比较

首先,在16倍超分辨率下与现有方法的比较结果如下

总的来说,现有的方法在保持身份、人工痕迹、纹理和细节方面都失败了,而提议的方法GLEAN则成功地产生了高质量的图像。进一步提高放大率的结果如下

即使在64倍超分辨率的困难设置下,我们也成功地产生了类似于地面实况的高质量图像。

对姿势和内容的稳健性

所提出的方法能够产生良好的图像,即使产生的图像不限于人体正面图像。这在下图中有所说明。

现有的方法PULSE对非人类图像和非正面图像无法生成,而提议的方法显示出良好的效果。另外,应用于非人类动物和景观的结果如下。

即使在这种情况下,所提出的方法也显示出良好的效果,并被证明对内容和姿势是稳健的。

量化比较

为了进行定量比较,我们计算了从CelebA-HQ中提取的100张图像在ArcFace嵌入空间上与地面实况的余弦相似度,结果见下表。

不同类别的结果也显示如下(测量了100张图像的平均PSNR/LPIPS)。

所提出的方法在除卧室以外的所有类别中都显示出最好的结果,显示出它比现有方法的优越性。

消融研究

关于编码器

在所提出的方法中,Latent Bank被输入了由编码器生成的多分辨率特征。

减少给定的特征数量的结果如下所示。

生成的图像对原始图像的保真度和质量随着提供的特征数量的增加而增加,表明了所提方法的有效性。

关于Latent Bank

接下来,当从潜伏库中使用的特征数量减少时,以下是结果

如果预训练的GAN模型中没有这些信息,网络就必须同时生成图像的结构和纹理,而它在这两方面的表现都不理想。

另一方面,从 "潜伏库 "中接收这些关于结构和纹理的信息,可以使我们在这两方面得到更好的结果。

关于解码器

在不使用解码器的情况下,结果如下

如果你没有使用解码器(w/o decoder),你会发现在放大图像时有一些不愉快的伪影,即使整体效果并不令人不快。

与基于参考的方法比较

将提出的方法与基于参考的超分辨率方法、SRNTTDFDNet进行比较,结果如下。

现有的方法通过使用图像字典来提高图像修复的质量,但对于不在字典中的区域(如皮肤或头发),它们的效果并不好,也不能再现精细的纹理。

另一方面,所提出的方法成功地实现了比现有方法质量更好的超级分辨率,而不需要复杂的程序,如在字典中搜索图像。

应用于图像修饰

所提方法的另一个应用是图像修饰。这在下图中有所说明。

在这个图中,所提出的方法已经成功地应用于含有模糊区域(Retouched)的图像,以消除不自然的人工痕迹。

因此,所提出的方法有可能被应用于超分辨率以外的任务。

摘要

所提出的方法,GLEAN,通过使用预训练的GAN模型,如StyleGAN,显示出良好的超分辨率结果,最高可达64倍。

这有可能扩展到各种图像任务,如图像去噪,这项工作显示了将预训练的GAN模型转移到其他任务的潜力。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们