赶上最新的AI论文

同时使用合集和数据增强是否存在陷阱?

数据增强

三个要点
✔️ 发现当结合集合数据增强时,校准可能会降低

✔️ 对上述问题进行了调查,找出了校准性能不佳的原因
✔️ 为避免上述问题,提出了一种新的数据增强方法"CAMixup"

Combining Ensembles and Data Augmentation can Harm your Calibration
written by Yeming WenGhassen JerfelRafael MullerMichael W. DusenberryJasper SnoekBalaji LakshminarayananDustin Tran
(Submitted on 19 Oct 2020)
Comments: Accepted to ICLR 2021.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
 
code:  

首先

Ensemble方法是利用多个模型的预测平均值,Data Augmentation则是增加训练所用的数据量,常用来提高模型的校准和鲁棒性。

但是,在本文介绍的论文中,表明这两种方法的结合会对模型的校准产生负面影响。此外,研究了这种标定退化的现象,并提出了一种避免这种现象的方法CAMixup。

初步准备(校准、合集、数据增强)

在解释结合合集数据增强的负面效应之前,先介绍一些初步的知识。

校准

校准误差对评价模型预测的可靠性很有用。在本文介绍的论文中,我们使用下面解释的ECE作为评价模型可靠性的措施。

ECE(预期校准误差)

分类器的类预测和置信度(表示模型的预测概率)用$(\hat{Y},\hat{P})$表示。那么,ECE就是置信度与期望准确度之差的近似值$E_{\hat{P}}[|P(\hat{Y}=Y|]\hat{P}=p)-p|]$)。

这是通过将[0,1]的预测值分选成$M$等值区间(量化过程,将一定区间(bin)内的值用特定的值代替,比如中心值,就像在直方图中做的那样),然后找到每个bin的准确度/置信度差异的加权平均值。

设$B_m$是$m$-th个仓的集合,其预测置信度落在$(\frac{m-1}{M},\frac{m}{M}]$区间内,则$B_m$仓的准确度和置信度可以用下式表示

$Acc(B_m)=/frac{1}{|B_m|}/sum_{x_i\in B_m} I(hat{y_i}=y_i)$。

$Conf(B_m)=/frac{1}{|B_m|}/sum_{x_i \in B_m} hat{p_i}$。

$hat{y_i},y_i$分别表示预测标签和真实标签,$/hat{p_i}$表示$x_i$的置信水平。给定$n$的例子,ECE为$/sum^M_{m=1}/frac{|B_m|}{n}|Acc(B_m)-Conf(B_m)|$。

集合法

集合法是将多个模型的预测结果汇总的方法。在实验中,我们重点研究BatchEnsembleMC-DropoutDeep Ensembles三种合集方法与数据增强方法的交互作用。

数据增强方法

数据增强是一种通过对输入数据集进行各种变换(如图像剪裁)来提高泛化性能的方法。在实验中,我们研究了以下两种方法。

Mixup

给定一个例子$(x_i,y_i)$,Mixup用以下公式表示。

$\tilde{x}_i=\lambda x_i+(1-\lambda)x_j$

$\tilde{y}_i=\lambda y_i+(1-\lambda)y_j$

其中$x_j$是来自TRAIN集的样本(从一个迷你批次中获得),$\lambda \in [0,1]$是从beta分布$beta(a,a)$中取样的($a$是一个超参数)。

AugMix

让$O$是一组数据增强操作,$k$是AugMix的迭代次数。在这种情况下,增强操作$op_1,...。,op_k$和它们的权重$w_1,...。,w_k$(Dirichlet分布(a,...),a)),用augmix的增量用下式表示。

$\tilde{x}_{augmix}=mx_{orig}+(1-m)x_{aug}$.

$x_aug=\sum^k_{i=1}w_iop_i(x_{orig})$

实验

在下面的实验中,我们研究了结合数据增强的合集校准。首先,在CIFAR-10/100上应用Mixup的结果如下。

这些结果显示了五个随机种子运行结果的平均值。红色只代表合体,蓝色代表Mixup+合体,橙色代表两者都不是。在图(a)和(b)中,我们可以看到Mixup和Ensemble的组合提高了测试性能(减少误差)。

另一方面,图(c)和图(d)显示,当Mixup与Ensemble结合时,校准效果更差(ECE增加)。

为什么Mixup合集会使校准恶化?

我们更详细地研究了当集合体与数据增强相结合时的校准退化现象。下图为BatchEnsemble和Mixup组合时,不同置信区间计算出的平均精度和平均置信度的差异。

如果准确度与置信度的差值(纵轴)为正,则说明该准确度的置信度较低(置信度被低估),如果为负,则说明置信度较高(置信度被高估)。

该图显示,与Single网络情况相比,BatchEnsemble-only和Mixup-only情况下的准确性-可靠性差异变得更大,并接近零。

在Misup+BatchEnsemble的情况下,整体的精度-可靠性差异偏向于正向,说明相对于精度而言,可靠性被低估了。换句话说,虽然数据增强法和合集法具有防止高估置信度的作用,但两种方法同时使用反而低估了置信度,这似乎是校准恶化的原因。

再举一个可视化的例子,在一个由5个簇组成的简单数据集上训练一个三层MLP的置信度(softmax概率)如下图所示

在Mixup/no ensemble情况下(c),预计总体概率较高(黄色)。引入Mixup后,这种情况得到了缓解,同时使用合集,我们可以看到,整体的置信度预测要低很多(绿色)。

此外,标签平滑是抑制置信度过高的最有效方法之一,当这种标签平滑与合集一起使用时,也会出现同样的现象。当标签平滑与合集一起使用时,也会出现同样的现象,如下图所示,标签平滑应用得越强,ECE的增幅越大。

信心调整混合集合(CAMIXUP)。

在本文中,我们提出了CAMixup作为一种方法来防止这种由于低估置信度而导致的校准退化,CAMixup的基本思想是,在分类任务中,预测的难度可以因类而异。在这种情况下,对于预测容易的班级,宜提高信度,对于预测困难的班级,要防止信度提高太多。

CAMixup就是基于这个思想,对每个类的Mixup应用程度不同,特别是对模型置信度可能被高估(难以预测)的类。如下图所示。

如左图所示,如果精度-置信度差值为正,则不应用Mixup,如果为负,则应用Mixup。在右图中,显示了250个纪元中每个类的Mixup应用次数。在这种情况下,我们可以看到Mixup经常应用于难以预测的类(狗和猫)。

使用CAMixup的结果如下。

红色显示的是合奏的结果,蓝色显示的是Mixup+合奏,绿色显示的是CAMixup+合奏。图(a)和图(b)显示,与常规Mixup相比,测试精度略有降低,但ECE可以显著降低。在下表中,我们还显示了ImageNet上的结果。

研究表明,在精度损失可以忽略不计的情况下,ECE可以得到显著提高。

分配班期间的业绩

CIFAR-10-C/CIFAR-100-C(C表示腐败)的评价结果如下:

如图所示,CAMixup即使在发生分布转移的任务环境中也是有效的。CAMixup在AugMix上也有很好的表现,AugMix是一种先进的数据增强方法。结果如下:

AugMixup是一个结合了AugMix和Mixup的方法(细节省略)。修改后的AugMix结合CAMixup(AugCAMisup)的版本,与普通CAMixup的情况一样,都能显著提高ECE。

摘要

在下面的论文中,证明了当合集与数据增强相结合时,校准会降低。这可能是由于合集和数据增强低估了置信度。为了避免这种情况,我们提出了CAMixup,根据预测类的难易程度来改变Mixup的应用。

虽然数据增强和合集都是提高性能的有效方法,但这是一项重要的研究,我们发现了一种将它们结合在一起可能会带来危害的现象,并展示了一种解决方案。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们