我们是否在图像生成方面击败了BiGAN？关于扩散模型

生成图像 07/12/2021

三个要点
✔️ 扩散模型击败了SOTA的BiGAN，用于高精度的图像生成
✔️ 通过大量的消融实验和技术探索扩散模型的良好架构
✔️ 用扩散模型控制生成数据的真实性和多样性之间的平衡

Diffusion Models Beat GANs on Image Synthesis
written by Prafulla Dhariwal, Alex Nichol
(Submitted on 11 May 2021 (v1), last revised 1 Jun 2021 (this version, v4))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

简介

多年来，生成模型已经能够产生人类水平的文本(如何从GPT-3中获得真正的价值：Prompt程序设计)，高精度的图像(用于超级分辨率技术的预训练GAN模型)，或类似人类的语音和音乐。然而，需要进一步研究以超越目前的SOTA模式。预计它将被用于广泛的领域，如平面设计、游戏和音乐制作。

在目前的评估指标中，重点是生成数据的质量，GANs掌握着主要的SOTA。另一方面，GANs在训练过程中容易出现模型崩溃，而且生成数据的低多样性也被认为是一个问题。

在这篇文章中，我们提出了一篇论文，声称与GAN不同的扩散模型最终超越了GAN。

图1.显示了一个由扩散模型产生的图像的例子，表明它可以和GANs一样产生无差别的图像。扩散模型通过逐渐去除给定信号中的噪声来产生数据。在数据集上已经实现了SOTA，但在ImageNet等困难的数据集上，准确率仍有欠缺。

作者假设，扩散模型和GAN之间有两个区别：首先，扩散模型不像GAN那样具有架构探索性，其次，GAN第二是GAN可以控制生成数据的多样性和保真度之间的权衡。考虑到这两点，我们表明扩散模型能够通过广泛的实验找到一个好的架构，从而击败目前的SOTA的BiGAN。

扩散模型的背景

扩散模型通过逐渐去除给定信号中的噪声来产生图像。事实上，它从噪声x_T开始，一直到x_(T-1),x_(T-2),...。,x_0.然后，扩散模型被训练来预测噪声。

另外，由于本文中所有的噪声都是高斯的，从每个x_t移动到x_(t-1)所要消除的噪声可以表示为

其中μ是高斯噪声的平均值，sigma是方差，在本研究中都是由神经网络来近似。有关该模型的更多信息，请参考附录。

模型

建筑改进

基于在以前的研究中被证明是有效的UNet架构，架构搜索集中在以下领域。我们将架构搜索的重点放在：模型的深度和广度、头数和注意力机制的不同分辨率，以及BiGAN中使用的剩余块。特别是，进行了控制性实验，以确定这些数值的取值。

从表2可以看出，头数越多越好，通道数越少，FID越好（越低）。

图2（左）还显示，增加残差块的数量（res=4，蓝色）可以降低FID值，但需要更多的训练时间来达到相同的精度。粉红色的线条表明，在较短的训练时间内可以达到相同的准确度，并且最终可以获得较低的FID。对于磁头，我们使用64个磁头，如图2所示。在随后的实验中，我们将使用本实验中发现的最佳架构，并比较结果。

分类器指导

众所周知，使用标签的条件生成对GANs是有效的，以前的研究表明，将这一想法应用于Diffusion模型可以提高准确性。分别是具有随机过程假设的扩散模型和具有确定性抽样假设的扩散模型，并提出了用标签分类器对它们中的每一个进行调节的算法。

在扩散模型中，假定高斯分布与算法1中的一般随机过程一样。标签分类器的调节与高斯分布按分类器的梯度比例移动相一致。另一方面，如算法2所示，扩散模型本身将分类器的梯度纳入明确的采样过程中。详细推导请参考本文第4节。事实上，在本文中，我们使用了算法1和一个在ImageNet上训练的UNet作为分类器。超参数s可以用来控制生成的准确性和多样性之间的平衡。

到目前为止，我们使用分类器梯度对扩散模型进行了条件训练，但当然也可以直接训练条件扩散模型。不过，当然也可以直接训练条件扩散模型。此外，也可以用类似的方式在条件扩散模型上使用分类器梯度。