AugMax来了，这是一种能克服模型弱点的数据扩展方法

数据增强 14/02/2023

三个要点
✔️ AugMax，一种新的数据增强策略，通过战略性地增加数据的多样性和难度，极大地提高了鲁棒性
✔️ AugMAX结合了多个经过数据增强的转化图像，通过凸式组合来保持多样性，但又不会与原始图像有太大的偏差。将AugMix与对抗性扰动相结合，AugMix生成的数据在保持多样性的同时不会与原始图像有太大的偏差，而对抗性扰动则提高了数据的多样性和难度。
✔️ 使用三个指标对CIFAR-10-C、CIFAR100-C、ImageNet-C和Tiny ImageNet的性能进行了测试，发现其性能超过最先进的水平。

AugMax: Adversarial Composition of Random Augmentations for Robust Training
written by Haotao Wang, Chaowei Xiao, Jean Kossaifi, Zhiding Yu, Anima Anandkumar, Zhangyang Wang
(Submitted on 26 Oct 2021 (v1), last revised 1 Jan 2022 (this version, v3))
Comments: NeurIPS, 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

自从基于深度学习的方法在图像识别中表现出高性能以来，许多使用卷积神经网络的模型已经被提出来用于图像分类。如果训练数据的分布和测试数据的分布完全相同，许多模型可以达到很高的精度，但在现实世界的应用中，训练数据和测试数据的分布并不总是匹配的（例如，由于相机抖动或噪音造成的自然图像损坏，图像数据中的雪、雨、雾等，或域转移，例如从夏季到冬季），如果它们不匹配，模型的估计精度可能会大大降低。

事实上，在以前的研究中，最先进的模型对常规ImageNet数据集的分类误差为22%，而在ImageNet-C数据集（见图1）中，它的分类误差上升到64%，该数据集由ImageNet数据集中的图像组成，这些图像通过应用各种处理而被破坏。据报道，这一比例已增加到64%。此外，在训练数据中包括损坏的图像，可以使模型在测试时对训练数据中的损坏图像类型进行正确分类，但它只能对训练数据中的损坏进行分类，而不能针对未知的损坏进行正确分类。这些结果表明，该模型不能推广到与训练数据分布不同的图像上，而且目前几乎没有技术可以提高该模型在这种情况下的稳健性。

图1：ImageNet-C数据集中的图像实例。

诸如数据增强、Lipschitz连续体、稳定学习、先验学习和稳健网络结构等技术已被提出，作为提高模型稳健性的方法来解决这一问题。在这些技术中，数据增强由于其经验上的有效性、易于实现、低计算开销和即插即用的特性而受到特别关注。

有两种主要的方法可以通过数据增强来提高模型的稳健性。

首先是通过结合多种随机变换来增加训练数据的多样性，包括AugMix。
AugMix是一种对各种数据扩展操作进行概率性采样并随机混合的方法，以产生非常多样化的增强图像，是一种标准的数据扩增方法（如随机反转和翻译），成功地增加了训练数据的多样性。

第二种方法是使用对抗性扰动来提高模型的稳健性，如PGD攻击。
在使用对抗性扰动的方法中，噪声被添加到训练数据中，以产生模型难以分类的图像，通过学习这些（对抗性学习），可以成功地提高模型的通用性和稳健性。

以前的研究主要是利用这两种方法中的任何一种来提高稳健性。因此，为了提高模型的稳健性，本文提出了AugMax，这是一种AugMix的改进方法，将这两种方法（AugMix和对抗性扰动）统一在一个框架内，以提高数据的多样性和难度。与AugMix相比，AugMix不仅是一个更强大的数据扩展，并产生了异质性的输入分布，而且实验证实，所提出的方法不仅实现了对腐败的最先进的鲁棒性，而且还提高了对其他常见分布转移的鲁棒性。

在以下几章中，我将简要解释数据增强、AugMix（链接是我撰写的AugMix论文评论文章）和作为先验知识的对抗性扰动，然后描述所提出的方法、实验细节和结果。

先前的知识

什么是数据扩展？

数据扩张是一种通过对图像进行某种变换来伪装增加数据数量的方法，如图2所示。
除了图2中显示的那些，还有无数其他类型的变换，比如擦除（Erasing），它可以填充图像的一部分，以及高斯模糊（GaussianBlur），它应用高斯滤波器。

众所周知，使用这些不同的扩展方法训练的模型比只在原始数据上训练的模型更具有普遍性，但有时它们会降低性能或引起意想不到的偏差。
因此，为了提高模型的泛化率，需要根据领域手动寻找有效的数据扩展方法。

图2：数据扩展概述。

搅拌器

图3显示了AugMix的操作概要图。

AugMix是一种从AutoAugment中对各种数据扩展操作进行概率采样并随机混合的方法，以生成非常多样化的增强图像。
这种组合被称为增殖链，一个增殖链由一至三个增殖操作的组合组成。
AugMix对这个增殖链的$k$进行随机采样（默认$k=3$），然后将采样的采样的增强链是用元素的凸组合来合成的。
最后，使用 "跳过连接 "将合成的图像与原始图像结合起来，产生一个图像多样性得到保留的图像。

如果你想了解更多关于更详细的部分，请看这里（这是一篇我撰写的AugMix论文评论文章）。

图3：AugMix操作概述。

什么是对抗性扰动？

敌意扰动是导致模型错误分类的敌意扰动（如噪音）。在数据中加入敌意扰动的问题是，模型输出错误的答案，而且置信度很高。

以前有一个著名的关于敌意扰动的研究，就是《解释和把握 ADVERSARIAL 例子》（EXPLAINING AND HARNESSING）。这项研究的结果显示在图4中。

这是因为在加入噪声之前，模型判断图像（图4的左边）是一只熊猫，但当噪声被加入到图像中时（图4的右边），模型判断它是一只猴子。(同样重要的是要注意，不仅模型是错的，而且是以高置信度错的。) 这对于人工智能的现实世界应用（例如在自动系统中）是一个问题。(例如，在自动驾驶中，模型可能会错误地识别标志，这可能导致事故）。

因此，人们研究了提高模型鲁棒性的方法（即它们对有噪声的图像进行准确分类的能力）。
在使用对抗性扰动的方法中，噪声被添加到训练数据中，以产生模型难以分类的图像，通过学习这些（对抗性学习），可以成功地提高模型的通用性和稳健性。

图4：以前关于敌意扰动的研究结果

建议的方法

从这里开始，描述了本文提出的方法--AugMax。

AugMax是一种数据增强技术，它将AugMix和对抗性扰动统一到一个框架中，从而增加数据的多样性和难度，提高模型的鲁棒性。

图5显示了AugMax的概览图。图5的左边显示了与AugMix相同的过程，而图5的右边显示了与对抗性扰动有关的过程，通过这些过程，对抗性混合参数$w$和$m$被更新。在AugMix中，$w$和$m$是随机确定的，这也是所提方法与AugMax的主要区别。它是。

AugMax的目标是学习一个分类器$f$:$\mathbb{R}^d$→$\mathbb{R}^c$，其参数为$theta$，从图像中给定一个数据分布$boldsymbol{D}$的图像$\boldsymbol{x} \in \mathbb{R}^d$和标签$\boldsymbol{y} \in \mathbb{R}^c$，然后对未知分布进行鲁棒。因此，我们首先解决以下方程，使$theta$的损失最小。

$\min _{\boldsymbol{\theta}} \mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y}) \sim \mathcal{D}} \mathcal{L}(f(\boldsymbol{x} ; \boldsymbol{\theta}), \boldsymbol{y})$

其中$ \mathcal{L}(\cdot,\cdot)$ 代表损失函数。

接下来，由于图5右侧的AugMax正在生成的图像$boldsymbol{x}^*$是通过学习对抗性混合参数$w$和$m$生成的，$boldsymbol{x}^*$可以表示为：。

$\boldsymbol{x}^*=g\left(\boldsymbol{x}_{\text {orig }} ; m^*, \boldsymbol{w}^*\right)$

其中$g(\cdot,\cdot)$代表AugMax数据扩展函数，$\boldsymbol{x}_\text {orig}$代表转换前的原始图像。对抗性混合参数$w$和$m$也是通过解决以下优化问题得到的。

$m^*, \boldsymbol{w}^*=\underset{m, \boldsymbol{w}}{\arg \max } \mathcal{L}\left(f\left(g\left(\boldsymbol{x}_{\text {orig }} ; m, \boldsymbol{w}\right) ; \theta\right), \boldsymbol{y}\right), \quad$ s.t. $m \in[0,1], \boldsymbol{w} \in[0,1]^b, \boldsymbol{w}^T \mathbf{1}=1$

图5：AugMax的概览图。

实验装置

CIFAR10、CIFAR100、ImageNet和Tiny ImageNet（TIN）被用来评估所提出的方法。
CIFAR10-C、CIFAR100-C、ImageNet-C和Tiny ImageNet-C（TIN-C）是通过破坏测试集图像产生的，也被用作数据集来评估模型对常见自然破坏的鲁棒性。
作为模型架构，ResNet18、WRN40-2和ResNeXt29被用于CIFAR数据集，ResNet18被用于ImageNet和Tiny ImageNet。

估值指数

对于CIFAR10-C和CIFAR100-C，模型的稳健性是通过定义15种腐败的平均分类精度作为稳健性精度（RA）来评估的。
对于ImageNet-C和Tiny ImageNet-C，鲁棒性是用RA和平均腐败误差（mCE）来评估的。
这里，mCE指的是不同类型腐败的目标模型腐败误差的加权平均数，以基线模型腐败误差为标准。

作为一个基线模型，AlexNet被用于ImageNet实验，而ResNet18则被用于Tiny ImageNet实验，它在传统上是在Tiny ImageNet上训练的。
此外，标准准确度（SA）被用于分类准确度，它代表了原始清洁测试图像的分类准确度。

结果和讨论

CIFAR10-C和CIFAR100-C

对于CIFAR10-C和CIFAR100-C，本方法和最先进的方法AugMix在每个架构上进行了比较。
CIFAR10-C的结果见图6，CIFAR100-C的结果见图7。
这里，表中的Normal是指使用默认的标准扩展方法（如随机反转和翻译）进行训练。

图6：CIFAR10-C比较结果

图7：CIFAR100-C比较结果

图6和图7显示，AugMax-DuBIN在两个不同结构的数据集上都取得了最佳性能。
例如，与AugMix相比，可以看到CIFAR10-C和CIFAR100-C的准确率分别提高了3.03%和3.49%。
此外，该方法也被认为对较大的模型有效。
具体来说，在CIFAR10和CIFAR100实验中，三个模型中容量最大的ResNeXt29获得了最大的稳健性改进。

ImageNet-C和Tiny ImageNet-C

在之前的研究中，AugMix与DeepAugment等其他方法结合时，显示出在ImageNet-C上的性能得到进一步提高，为了与它们进行性能比较，我们在ImageNet-C和Tiny ImageNet-C上进行了三个对比实验：（1）AugMix v.s. AugMax，以及(2) DeepAugment + AugMix v.s. DeepAugment + AugMax。
ImageNet-C的结果见图8，Tiny ImageNet-C的结果见图9。

图8：ImageNet-C比较结果图9：Tiny ImageNet-C结果

图8显示，AugMax-DuBIN在ImageNet-C的mCE中比AugMix高出0.52%。
此外，AugMax-DuBIN和DeepAugment的组合在mCE中比AugMix+DeepAugment高出0.82%，在ImageNet-C上取得了最新性能。
这表明AugMax可以作为模型稳健性的一个更高级的基本构件，并鼓励未来的研究在其基础上建立其他防御方法。
从图9来看，Tiny ImageNet-C证实了所提出的方法与AugMix相比，提高了2.32%的mCE，与DeepAugment结合时，提高了0.45%。

摘要

本文提出了一种新的数据扩充策略 "AugMax"，通过战略性地增加数据的多样性和难度来显著提高鲁棒性。

所提出的方法，AugMax，是一种数据增强技术，通过将AugMix（通过凸合并经过数据扩展处理的多个转换图像，在保持多样性的同时，生成不偏离原始图像的数据）与对抗性扰动相结合，提高数据的多样性和难度以及模型的稳健性。它是。

为了证实所提方法的有效性，在数据集CIFAR-10-C、CIFAR100-C、ImageNet-C和Tiny ImageNet上进行了实验，这些数据集是在CIFAR-10、CIFAR100、ImageNet和Tiny ImageNet上分别有腐败现象。所提方法在CIFAR-10-C、CIFAR100-C、ImageNet-C和Tiny ImageNet的数据集上的性能是用三个指标来检查的：鲁棒性准确性（RA）、平均腐败误差（mCE）和标准准确性（SA）。
结果证实，所提出的方法优于以往研究中的最先进性能。