仅用10张图片就能成功进行跨域GAN学习
三个要点
✔️ 仅用10张卡片就能成功实现GANs的跨域学习
✔️ 学习多样性为特征之间的差异
✔️ 展示了压倒性的高精确度
Few-shot Image Generation via Cross-domain Correspondence
written by Utkarsh Ojha, Yijun Li, Jingwan Lu, Alexei A. Efros, Yong Jae Lee, Eli Shechtman, Richard Zhang
(Submitted on 13 Apr 2021)
Comments: Accepted by CVPR 2021.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR); Machine Learning (cs.LG)
code:![]()
首先
训练GAN一般需要大量的训练图像,而在少量的数据上进行训练往往会导致过拟合。然而,在本文中,我们改变了一点思维方式,介绍了我们的研究,即我们预先训练了一个大的数据集作为源域,并让GAN生成甚至只有10张图像,把大约10张图像作为目标的生成。
在下图中,我们可以看到在FFHQ上训练的$G_s$,有足够的训练数据,能够生成人脸图像。然而,当我们用少量的绘画数据对其进行微调时(我们认为这10张图片实际上是用来训练的),我们可以看到它如预期的那样过拟合(过拟合$G_s→t$)。然而,在这里提出的论文中,我们可以看到,我们可以在不过度拟合的情况下学习,同时保持源域的多样性,只需10张训练卡(我们的$G_s→t$).我们认为,这篇论文被CVPR2021接受,是因为它改变了我们的思维方式,展示了一个相当简单但有希望的结果。
建议的方法
这个方法的关键是如何在保证多样性的同时,又不至于用少数数据来过度拟合!这也是一个很重要的问题。
确保多样性
这个想法非常简单:通过添加一个保持源域图像之间特征差异的正则化,目标域也可以继承源域的特征差异(多样性)以确保多样性。它是以下公式。我只在源端添加了评论,但对目标端也是如此。
使用上述两者的KL发散,我们试图使目标与源的分布相同(下面的方程),这与对比学习的思路相似
防止超标
首先,之所以容易出现超标,正如你可能直观地理解的那样,是因为如果数据集很小,可以学习的分布也很小,所以只需要记忆就可以处理。这其中有趣的是,通过少量的数据什么是 "现实的 "样本的定义变得更加密集了。因此,我们关注的是,少数训练图像只构成了期望分布的一个小子集。例如,如果可以从100张图像中学习到理想的整体潜变量,那么10张图像可以学习到理想潜变量(子集)的十分之一,尽管并不完全如此。我们现在定义一个锚域$Z_{anch}⊂Z$,它构成整个潜在空间的一个子集构成整个潜在空间的一个子集。从这些区域取样时,我们使用完整的图像判别器$D_{img}$。然后,通过将$D_{patch}$定义为更大的$D_{img}$网络的一个子集对于一个图像片,判别器$D_{patch}$(使用的有效贴片尺寸从22×22到61×61不等。).通过这样做,我们不能简单地记住整个图像。我们必须看一下细节。
实验
以下是用于比较的模型。
- 转移GANs (TGAN)
- 批量统计适应性(BSA
- MineGAN
- 冻结-D
- 非泄密数据的增强
- EWC
对于数据集,我们将使用以下内容。源将是预训练域,目标将是我们想要生成的图像域。
来源
- Flickr-Faces-HQ (FFHQ)
- LSUN教会
- LSUN汽车
- LSUN马
目标
- 脸部漫画
- 脸部素描
- 阿梅德奥-莫迪里阿尼的脸部绘画
- FFHQ-babies
- FFHQsunglasses
- 景观图
- 闹鬼的房子
- 梵高的房屋画
- 失事/被遗弃的汽车
结果
结果清楚地表明,所提出的方法是有效的。在比较帽子和脸部方向时,这是很明显的。
类似领域的结果
我做了$G_s(Z)$,像Real样本一样。如果你看一下$G_t(Z)$,效果也不错。特别是最右边的太阳镜领域,很容易理解。然而,我们在这里发现了一些问题。在太阳镜领域,当你戴太阳镜时,你的头发会变得更黑。这并不是人们所期望的。消息来源中有金发的女性,所以这些特征之间的差异没有很好地发挥作用。
不同领域的结果
我们对这个不同的领域进行实验,认为既然我们把源领域的特征之间的差异与该领域的特征之间的差异结合起来,我们可以看到可以与变化中的每个特征联系起来的趋势。
教堂的结果很容易理解,但似乎教堂(源)的窗口特征和漫画(域)的眼睛特征,不知为何,是成对的。在我看来,我们似乎正在按照作者的建议学习。
量化评价
每个结果的定量评价结果见表。
FID得分(顶部)和LPIPS距离(底部)。两者都显示出最高的准确性。
摘要
令人惊讶的是,这一代人只用10张图片就能很好地工作。我认为它受到了高度赞赏,因为它按照作者的想法进行学习。它实现了一个相当直观的想法,以确保多样性作为特征之间的差异,并在Discriminator中放入一个学习技巧,以防止过度拟合,这是不容易学习的,而且效果不错。
作者这次只是落实了这个想法,还有通过考虑一种能够保证多样性的表示方法,可以期待进一步的发展。在未来,可能会有一种更有效的方式来利用从大规模数据中学习到的GANs,通过使用这种表示方法。
例如,如果我们把GAN的想法和少数民族的数据...这只是一个想法,但我们也许可以通过用显示少量肺结节的X射线图像训练$G_s$来创造大量的肺结节图像,该图像是用正常的X射线图像训练的。当然,自然图像和医学图像的属性是不同的,但我认为可以通过设计一种表达方式来解决属性上的差异。
与本文相关的类别