赶上最新的AI论文

有哪些数据集和评价标准可以公平地评价防御机制?

对抗性扰动

三个要点
✔️我们发现,不同的图像对敌意攻击有不同的鲁棒性
✔️在开始时是稳健的图像上评估的防御机制不能正确执行。
✔️提出了一个用于公平基准测试的数据集和一套评价标准

Defense-friendly Images in Adversarial Attacks: Dataset and Metrics for Perturbation Difficulty
written by Camilo PestanaWei LiuDavid GlanceAjmal Mian
(Submitted on 5 Nov 2020 (v1), last revised 7 Nov 2020 (this version, v2))
Comments: Accepted by WACV 2021

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code: 

研究概要

最近,有很多关于对抗性攻击的研究,其中机器学习模型的输入数据被操纵以产生虚假结果。在这种研究中,数据集的偏差是一个问题,特别是在评估防御方法方面。这是因为不可能确定在评估期间获得的稳健性是由于数据集还是由于防御方法。在本文中,我们提出了一种方法来识别稳健的数据和通过应用防御性方法有可能恢复准确性的数据,并提出了一个名为ImageNet-R的数据集,它是一个稳健数据的集合。此外,我们提出了三个指标来衡量数据的稳健性。这使我们能够对对抗性攻击和防御算法进行无偏见的基准测试。

相关研究

什么是敌意攻击?

对抗性攻击是一种通过篡改输入数据来误导模型输出的攻击。由于我们在本文中讨论的是图像数据,所以我们将在以下章节中讨论图像数据。

对图像数据的对抗性攻击通过向输入图像添加人类观察者无法分辨的噪声来误导模型的输出。寻找这种噪音的方法就是攻击方法的类型。更多细节,请参考这篇文章

抵御敌方攻击的方法

已经提出了各种方法来防御对抗性攻击。概括地说。

  1. 敌对性学习
  2. 寻找稳健的架构
  3. 图像预处理

这三个被认为是最有希望的。对抗性学习的目的是通过在训练网络时包括由对抗性攻击创建的样本(对抗性样本)来创建一个对对抗性攻击具有鲁棒性的模型。虽然这种方法非常有效,但它容易出现过度拟合,因此对如何解决这个问题进行了广泛的研究。

由于任何一种防御方法都没有统一的评估标准,如果评估是在原本稳健的数据上进行的,那么性能就会比它应该的要高。

对国防有利的数据集

在这一节中,我们研究了对对抗性攻击具有内在稳健性或对对抗性攻击的防御性方法有效的数据集的属性。作者确定了三类容易分类的数据。

  1. 简易图像:无扰动,所有模型的分类结果相同
  2. ε-robust图像:即使没有防御算法的扰动,所有模型都能正确分类
  3. 便于防御:使用防御算法时,准确度恢复很大。

这里的扰动指的是进行敌意攻击时加入的噪音。添加的扰动越大,攻击就越强,但图像变化越大,人眼就越容易看到。

这些数据集的一个例子可能是这样的

ε-robust图像将是由名为PGD的攻击产生的图像,所有模型在没有任何防御算法的情况下都能正确分类。由于15554幅图像在$epsilon=0.01$时被正确分类,我们将其作为一个稳健的数据集。

评价一个数据集的稳健性的标准

在本节中,我们描述了数据本身的稳健性的评价标准。作者为这种评价提出了三个标准。

  1. 抗辩式鲁棒数据集(ARD)。
  2. 对抗性最小培植(AMP)。
  3. 有利于对抗性辩护(ADF)

ARD表示在给定的攻击和具有扰动ε的模型中,数据集是稳健的部分。AMP表示使模型M上的特定攻击不可抗拒的最小扰动。这个值越大,防御就越容易;ADF代表数据集中可以使用防御小ε攻击而恢复的图像的比例。这里的恢复是指被攻击错误输出的数据,现在可以被防御方法正确分类。

我们使用从我们拥有的数据集中随机选择的图像创建了六个不同的子集(鲁棒和非鲁棒图像)。应用于这些数据集的ARD、AMP和ADR分数的结果如下所示。

NR是一个非稳健的图像,R是一个稳健的图像。正如你所看到的,ARD得分和ADF得分对于健壮的图像来说是比较高的。

虽然我们发现这些分数是有效的衡量标准,但这些分数的计算成本很高,所以我们需要可以更有效地计算的衡量标准。因此,我们通过创建一个模型来解决这个问题,该模型利用预测对稳健和非稳健进行分类。

在预测方面,用传统ML模型和深度学习模型训练的结果如下。

深度学习模型使用CNN来提取图像特征,而ML模型使用GLCM,一种统计特征提取方法。预计CNN这种较新的方法将提供迄今为止最好的准确性,但ML模型是表现最好的,仅使用从灰度图像中提取的统计特征就达到了75的准确性。灰度图像包含来自YCbCr的Y通道。结果表明,在大多数情况下,使用从Y通道提取的GLCM特征的模型可以识别图像是否是稳健的。需要注意的是,深度学习模型使用的是RGB图像,而ML模型则是灰阶图像。因此,从建立一个简单的预测模型的角度来看,使用从Y通道提取的GLCM特征的模型更合适。

摘要

在本文中,我们展示了可防御的图像的存在,这些图像对敌对的攻击具有弹性,并且比其他图像更容易恢复被攻击模型的准确性。由于在包含许多此类图像的数据集上评估的防御性方法会被高估,我们提出了评估数据集鲁棒性的指标。为了降低这些指标的计算复杂性,我们还提出了一种方法,利用预测来确定一个图像是稳健的还是非稳健的。

如果数据集本身首先是稳健的,那么防御性方法就会被高估,这个观点非常有意思,预计未来关于防御性方法的研究会考虑到这个观点。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们