赶上最新的AI论文

ACGAN的回归--ReACGAN。

ACGAN的回归--ReACGAN。

生成对抗网络(GAN)

三个要点
✔️
发现ACGAN训练中的不稳定源是判别器的梯度爆炸。
✔️ 提出了一个新的损失函数D2D-CE,也可以考虑到数据之间的关系。
✔️ ReACGAN是ACGAN的改进版,已被开发出来,以实现与BigGAN相当的图像生成能力。

Rebooting ACGAN: Auxiliary Classifier GANs with Stable Training
written by Minguk KangWoohyeon ShimMinsu ChoJaesik Park
(Submitted on 1 Nov 2021)
Comments: NeurIPS 2021

Subjects:  Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍。

以前对对抗性生成网络(GANs)的研究是以解决模式崩溃和训练困难等问题为导向,这些问题损害了生成样本的多样性。具体来说,这些包括定义一个不会造成梯度损失的目标函数,开发稳定训练的正则化方法,以及在数据集中有效使用标记数据。

在数据集中使用标记数据的GANs被专门称为条件型GANs,并被分为基于判别器的GANs(基于分类器的GANs)或基于投影的GANs(基于投影的GANs),这取决于判别器如何被类别标签所制约。基于投影的GANs)。

在基于判别的GANs中,判别器不仅预测数据是否真实,还同时预测其类别标签。有一些已知的问题,如随着类的数量增加,在训练的早期阶段会出现模式崩溃,以及在图像生成中一个类内生成的样本缺乏多样性。

另一方面,基于投影的GANs使用一种架构,计算从类标签投影出来的条件向量与判别器中数据的特征向量的内积。只考虑数据和标签之间的一对一关系,为数据集中的数据之间的关系留下空间。

本文提出的ReACGAN是ACGAN的改进版,它通过将输入投射到超球上来抑制梯度爆炸问题,并提出了一个新的损失函数Data-to-Data Cross-Entropy(D2D-CE),它考虑了数据之间的关系。

ACGAN学习中的不稳定性。

在传统的GAN中,区分真实数据和生成数据的神经网络被称为判别器(D);在ACGAN中,这个判别器同时对图像中的物体的类别标签进行分类。

交叉熵被用作该分类的损失函数,当该损失函数在具有软性最大层的神经网络中被计算时,相对于最终线性层的权重的偏导被计算为如下公式。

ACGAN classification gradient

1_{y_i}=k$代表一个函数,如果类标签$y$是$k$,则取1,否则取0,而$p_{i,k}$指的是样本$i$属于类$k$的概率。

在训练的早期阶段,这个$p_{i,k}$的小值会导致梯度规范的增加,而这又会导致模式崩溃,使ACGAN学习不稳定。

原文证实,简单地将判别器中最后一个中间层的输出$F(x)$归一化(将上式中的规范设为1)就有学习稳定的效果。

数据到数据的交叉熵损失(D2D-CE)。

针对上述观点,即在基于投影的GAN中,只能考虑数据和类标签之间的关系,ReACGAN提出了一个损失函数D2D-CE,也可以考虑数据之间的关系。

鉴于D2D-CE中的传统交叉熵是用对应于类标签的特征向量(最后线性层的权重向量)和从数据中提取的特征向量之间的内积来计算的,D2D-CE甚至在属于不同类的样本之间也计算这个内积,因此,数据的它反映了两者之间的关系。

具体来说,D2D-CE可以用以下公式表示。

D2DCE definition

方程中$f$是将图像输入特征提取器($F$)并进一步通过投影层得到的归一化嵌入表示,$v$是对应于类别的归一化嵌入表示,$tau$是温度参数。$N(i)$代表属于不同类别的样本集合。这里,归一化指的是将梯度规范设置为1的归一化,如上节所述。

以这种方式引入一个考虑到数据之间关系的损失函数,你预计会产生什么效果?下图显示了在训练每个模型时,如何学习进展以将样本置于特征空间中。图中蓝色代表非犬类,红色代表犬类,★代表用于分类的线性层权重$w$,箭头代表学习的方向。

cGAN schema

在基于判别器的GANs中,权重被更新,从而使样本远离不同的类别,并接近它们所属的类别。在基于投影的GANs中,权重被更新,从而使样本更接近于它所属的类别。

另一方面,在使用D2D-CE的ReACGAN训练中,引入了一个余量项,忽略了那些容易被归入不同类别的样本,而权重的更新使那些难以分辨的负面例子远离正面例子,更接近它们所属的类别。这有望确保学习过程中保留一个类别内样本的可变性,同时保持类别之间的可分离性。

实验工作也证实了D2D-CE有助于训练的稳定:当在Tiny-ImageNet数据集上计算每次迭代的特征图规范和分类器中的梯度规范时,在引入D2D-CE后,每个值都保持较低。研究发现,D2D-CE抑制了梯度爆炸,这表明它有助于训练的稳定。

norm D2D-CE

ReACGAN的总体情况

ReACGAN的总体情况如下图所示,与ACGAN相比,主要的变化是引入了一个新的损失函数,它决定样本是否属于同一类别,而不是对它们进行分类。

该系统保留了GANs中传统的对抗性训练,但提供了D2D-CE的训练,作为一个额外的任务。

D2D-CE的独特之处在于,为了计算属于不同类别的样本之间的特征向量的内积,使用了一个对称矩阵(假阴性屏蔽)来表示样本之间的类别是否相同。

ReACGAN overview

ReACGAN的性能。

ReACGAN生成的图像显示在以下五个基准数据集上。

qualitative results reacgan

与以前的ACGANs相比,其发电量有了很大的提高。然而,应该注意的是,BigGAN架构大大增加了网络参数的大小。

在ImageNet中,通过Inception Score(IS)和Frechet Inception Distance(FID)进行评估的结果如下。

result reacgan

当批处理规模相对较小,为256时,ReACGAN具有较高的生成能力,而当批处理规模大至2048时,则输给了BigGAN。

学习曲线显示,在ReACGAN中,IS的上升速度趋于加快,FID的下降速度趋于加快。这可能是在学习的早期阶段训练稳定化的影响。

如果无论如何不能增加批处理量以提高梯度的可靠性,例如在低内存环境下,可以考虑用ReACGAN进行训练。

摘要

它怎么样--虽然我们把它命名为ACGAN revisited,但我们觉得在损失函数设计等方面,它更接近ContraGAN而不是ACGAN。

将所提出的损失函数D2D-CE与其他损失函数进行比较,并将其应用于不同的架构,感兴趣的朋友可以在原论文中找到。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们