赶上最新的AI论文

用GAN倒置法改造头发!"LOHO

生成对抗网络(GAN)

三个要点
✔️ 通过正交进行发型的潜伏优化(LOHO),一种使用GAN反转的基于优化的发型转换方法
✔️ 通过在两个阶段进行优化,提高生成图像的质量
✔️ 实现比现有发型转换方法更高的FID分数

LOHO: Latent Optimization of Hairstyles via Orthogonalization
written by Rohit Saha,Brendan Duke,Florian Shkurti,Graham W. Taylor,Parham Aarabi
(Submitted on 5 Mar 2021 (v1), last revised 10 Mar 2021 (this version, v2))
Comments: Accepted by CVPR 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自该文件,要么是参照该文件制作的。

简介

过去曾研究过一些使用深度学习的头发变换方法,但它们都存在这样的问题:当源头发和目的头发的结构不同时,产生的图像的真实性会降低。

在这里提出的通过正交优化发型的潜伏优化(LOHO)中,GAN反转的优化方法被用来产生自然图像。

GAN反转

GAN反转是一种将图像嵌入到预先训练好的GAN模型的潜在空间的技术,而不是从潜在变量中生成图像。这允许在GAN的潜伏空间中对任意图像进行各种操作,使图像的编辑变得更加容易。这种技术的另一个优点是,由于GAN已经被预先训练过,所以所得到的图像是高质量的。在潜伏空间中的嵌入有两种方法,编码器方法和优化方法,在这个方法中,我们使用了优化方法。下面的图片是该论文产生的图像。

最左边的图片是原始图片,右边是转换后的发型的图片。

变换后的图像左边的小图像从上到下分别是发型的外观和风格的参考图像、结构的参考图像和形状的面具图像(与结构的参考图像中的人相同)。看一下所产生的图像,我们可以看到这些属性得到了反映,图像仍然是自然的。

建议的方法

下图给出了一个总体概述。

手法の概要

I1的形象中的I2的发型的形状和结构。I3将被优化以产生一个反映发型的外观和风格的图像。

我们现在看一下各自的损失函数。

损失函数

以上是一个用于身份重建的损失函数:LPIPS是一个基于人类相似性判断的度量,因此适合用于身份重建。

下一步是用损失函数来重建发型的形状和结构。如果我们按原样使用发型形状的遮罩,当源发型和目的发型形状相差很大时,图像就会崩溃,所以我们使用一个稍有侵蚀的遮罩。

这是一个用于转移发型外观的损失函数。外观指的是头发的颜色,通过使用VGG最浅层的特征来表示。

这是一个用于转换发型的损失函数。风格指的是头发的波浪形和阴影。损失函数是基于格拉姆矩阵的,它经常被用于风格转换。

最后,一个损失函数用于噪声图的正则化。它的引入是为了避免优化噪声信息。

两阶段的优化

我们使用刚才看到的损失函数进行优化,但如果我们同时优化所有的损失函数I2I3是相互冲突的,不能成功结合。因此,我们分两步对其进行优化:第1步第一阶段只重建身份以及发型的形状和结构。然后,在第二阶段,加入发型的外观和风格的损失函数,并进行重建。在这里,第一个阶段第一阶段使用的损失函数也被用于第二阶段,因此第一阶段的信息被保留下来。

梯度的拉直

Lr捕捉到头发的所有属性,而不仅仅是它的形状和结构。因此,在优化的第二阶段,外观和风格信息是I3信息。为了避免这种情况,Lr第二步,将形状和结构的梯度投射到一个与外观和风格的梯度正交的矢量子空间上。I2并不反映《中国国家图书馆》的外观和风格信息。

上图比较了没有(右起第二列)和有(右起第一列)两阶段优化和梯度正交的结果。可以看出,通过优化,头发的属性得到了准确的反映,图像的合成也很自然。

与现有方法的比较

该方法与MichiGAN,一个SOTA模型的头发转换方法,以及FID得分的比较结果如下。

我们可以看到,它取得的FID分数比MichiGAN低。LOHO-HF的结果也是基于一个只有头发和脸部区域被遮蔽的图像。更低的分数表明,头发和脸部区域的合成质量很高。下图比较了MichiGAN和LOHO的输出图像。(右起第二排是MichiGAN,第一排是LOHO)

结果显示,LOHO对头发形状的变形反应良好。

另一个重要措施是身份重建的质量。我们的方法与两种最先进的图像嵌入方法在PSNR和SSIM分数方面的比较结果如下。

从以上结果可以看出,Image2StyleGAN++(I2S++)能够以更高的质量重建身份,而不是Image2StyleGAN++(I2S++)。

I2S还显示了优化后的潜变量与平均面部潜变量之间计算出的距离与合成图像的质量的关系:I2S显示有效人脸的潜变量之间的距离为[30.6, 40.5],LOHO在这个范围内。

摘要

在这篇文章中,我们介绍了LOHO,一种为ICCV2021所采用的头发变换方法。

这种方法被设计成即使在源头和目的地的发型形状不同时也能很好地工作,并产生高质量的结果。然而,当转换差异较大的发型时,结果可能是一个不自然的图像。LOHO的另一个缺点是,它是一种优化方法,因此需要很长的时间来推断。

我们期待着未来的研究,看看如何解决这些缺点。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们