赶上最新的AI论文

[LDDGAN]用于最快推理的扩散模型

[LDDGAN]用于最快推理的扩散模型

扩散模型

三个要点
✔️ 扩散模型在图像质量、多样性和学习稳定性方面优于 GAN,但由于推理速度非常慢而难以实时使用
✔️ 先前研究中的 DiffusionGAN 和 WDDGAN 明显提高了推理速度,但与 GAN 相比速度仍然较慢,生成的图像质量也较低挑战在于

✔️ LDDGAN 在低维潜在空间中利用对抗学习 GAN,保持了较高的图像质量和多样性,是扩散模型中速度最快的。

Latent Denoising Diffusion GAN: Faster sampling, Higher image quality
written by Luan Thanh TrinhTomoki Hamagami
(Submitted on 17 Jun 2024)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

扩散模型已成为生成高质量、多样化图像的一种强大方法,其性能往往优于 GAN。然而,由于其推理速度较慢,很难实时应用。为了解决这个问题,DiffusionGAN 利用条件 GANs 显著减少了去噪步骤的数量,并提高了推理速度。其改进版小波扩散模型通过将数据转换到小波空间,进一步加快了推理速度。不过,这些模型的速度仍然比 GANs 慢,图像质量也有所下降。

为了填补这些空白,这篇评论文章提出了潜在去噪扩散 GAN(LDDGAN)。该模型使用预先训练好的自动编码器将图像压缩到一个紧凑的潜空间中,从而显著提高了推理速度和图像质量。此外,还提出了一种加权学习训练策略,以提高多样性和图像质量。

在 CIFAR-10、CelebA-HQ 和 LSUN Church 数据集上的实验结果表明,在 DiffusionGAN(DDGAN)和小波扩散(WDDGAN)等扩散模型中,LDDGAN 的执行速度最高。与之前的研究相比,LDDGAN 在所有评估指标上都有显著改进。特别是生成图像的多样性明显优于 GAN,同时推理速度和图像质量与 GAN 相当。

建议方法

图 1.LDDGAN 概览

总体概述

LDDGAN 的概述如图 1 所示,包括以下四个步骤。(i) 预先训练好的编码器将输入图像转换成低维潜在变量。这里没有 WDDGAN 中 4 倍压缩的限制,但也可以进行 8 倍和 16 倍压缩。(ii) 它执行扩散过程,允许多模态分布和高斯分布。采样次数 T 设为 T ≤ 4,而不是传统扩散法中的数百或数千次。(iii) 生成器根据判别器反馈学习预测反变换的多模态分布,并执行反扩散过程。(iv) 经过预先训练的解码器将原始图像从潜在变量转换到像素空间,从而重建原始图像。

LDDGAN 的前两个预期优势是:它压缩了尽可能多的输入图像,从而大大降低了训练扩散模型的计算成本,推理速度也比以往的研究更快。此外,低维潜在空间对于基于似然法的生成模型 Diffusion 来说是最佳的,还能提高输出图像的质量和多样性。

自动编码器学习

LDDGAN 自动编码器的结构以 Esser 等人提出的VQGAN为基础。其显著特点是在解码器中加入了量化层。传统方法通常在自动编码器的损失函数中使用库尔贝-莱布勒(KL)发散惩罚。当模型的学习策略严重依赖于高斯分布时,这种方法会促使学习到的潜空间近似于正态分布,并被认为是有效的。然而,LDDGAN 并不局限于正态分布,它也允许复杂的多模态分布。因此,它不使用 KL 惩罚,允许自动编码器自由使用潜空间。这样就可以优先考虑压缩和还原图像的能力。

表 1 中的结果证明了这一假设的正确性。在大多数情况下,探索适当潜空间的自由度大大提高了结果。特别值得一提的是 CELEBA-HQ 数据集的结果。在这里,尽管使用的自动编码器的重构 FID 不如使用 KL 惩罚的自动编码器,但主模型还是取得了更好的 FID 和 Recall。

表 1.自动编码器学习空间的比较

学习损失和加权学习

LDDGAN 生成器和鉴别器的对抗损失由以下公式给出

仅使用对抗损失进行学习时,可以生成与真实数据一模一样的图像,但收敛速度较慢,因为学习是通过判别器间接完成的。因此,为了促进生成器训练的收敛性,我们还引入了重构损失,它表示原始图像与生成图像之间的差异,如下式所示。

在处理多个损失函数时,传统方法使用固定参数的线性组合来合成最终损失。这意味着重建损失的重要性保持不变。然而,重构损失会产生与输入数据相同但噪声不同的数据,这可能会降低所产生样本的多样性。因此,在 LDDGAN 中提出了加权学习(Weighted Learning),如下式所示。图 2 显示了加权学习的一个示例。

图 2.加权学习示例

首先,在学习的早期阶段,重建损失的重要性几乎设为 1,以促进收敛。然后,随着学习的进展,重要性逐渐降低,优先考虑敌对损失,以增加样本多样性。在学习过程接近尾声时,重构损失的减少速度会有所放缓,优先考虑整体稳定性。这种方法有可能加快学习收敛速度,同时保持图像质量、多样性和学习稳定性。

表 2:验证重新配置损失和加权学习有效性的实验。

表 2 中的实验结果证实了这一假设。在两个数据集中,采用重构损失比单纯依赖对抗损失能获得更好的图像质量(FID)。但另一方面,多样性(Recall)却有所降低。相反,引入加权学习后,图像质量和多样性都得到了改善。

试验

数据集和评估指标

为了测试 LDDGAN 的有效性,我们低分辨率 Cifar10(32x32尺寸和高分辨率 Celeba-HQ 和 LSUN(256x256 尺寸)数据集上进行了实验。评估指标包括推理时间、图像质量的弗雷谢特起始距离(FID)和多样性的召回率。在推理时间方面,对生成一批 100 幅图像的过程进行了 300 次试验,并测量了平均时间。

与以往研究的比较

表 3.CIFAR 的比较10
表 4.Celeba 总部的对比情况
表 5.LSUN 的比较

表 3、表 4 和表 5中的结果表明,LDDGAN 进一步改进了扩散模型的弱点,在扩散模型中达到了最先进的执行速度,同时保持了较高的图像质量和多样性。

还有一些扩散模型,如 SDE Score 和 DDPM,其 FID 比 LDDGAN 更好。不过,LDDGAN 的采样速度比 Score SDE 快 5000 倍,比 DDPM 快 1000 倍,在速度上具有压倒性优势。

尤其值得注意的是与之前研究的 DDGAN 和 WDDGAN 的比较结果。所提出的方法在所有评价指标上都优于这些方法。

此外,与被认为是 GAN 中的 SOTA 的 StyleGAN 相比,LDDGAN 在多样性方面明显更胜一筹,同时在图像质量和推理速度方面也不相上下。

图 3:定性比较。

图 3 是一个定性对比:LDDGAN 显然获得了更好的样本质量;在 CelebA-HQ 数据集上,DDGAN 和 WDDGAN 都难以生成清晰完整的人脸,往往会产生扭曲的特征。同样,在 LSUN 教堂数据集上,这些模型也难以准确描绘建筑物的线性和水平细节。相比之下,LDDGAN 能持续生成逼真、清晰的图像。

摘要

本文介绍了一种新的扩散模型--LDDGAN,它利用了低维潜在空间中 GAN 的对抗学习,在所有扩散模型中速度最快,同时保持了较高的图像质量和多样性。

值得注意的是,LDDGAN 与被视为最高级 GAN(SOTA)的 StyleGAN 的比较结果证实,LDDGAN 在图像质量和推理速度方面与 StyleGAN 相当,而在多样性方面则明显优于 StyleGAN。

另一方面,自动编码器可能会限制模型的整体性能,这也是一个可能的缺点。展望未来,对自动编码器的改进和对潜在空间特定生成器结构的研究有望进一步提高 LDDGAN 的有效性。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们