
通过删除信息进行敌意攻击的技术!
三个要点
✔️ 在原始数据中添加噪音以误认DNN模型是传统的对抗性攻击方法
✔️ 所提出的方法通过删除原始数据的信息进行攻击
✔️ 验证当前防御方法与其他攻击相比的抵抗力。
AdvDrop: Adversarial Attack to DNNs by Dropping Information
written by Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, A. K. Qin, Yuan He
(Submitted on 20 Aug 2021)
Comments: ICCV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG); Image and Video Processing (eess.IV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
误认DNN模型的攻击被称为对抗性攻击,传统上它们是通过向原始数据添加噪音导致误认而进行的。在本文中,我们提出了一种方法,即通过去除原始数据的信息,而不是添加噪音来进行攻击。这源于这样的想法:DNN与人类不同,还没有完全具备识别抽象物体的能力,而人类会认为抽象到可以识别的数据是某种敌对的样本。作者测试了通过删除信息产生的敌对样本对DNN的影响程度。
本文的贡献可归纳如下。
- 提出了AdvDrop,一种通过去除图像中的信息来生成敌对图像的方法。
- 验证了AdvDrop在目标和非目标攻击中的有效性,表明AdvDrop产生的敌对样本比其他攻击对目前的防御技术更有弹性。
- 将删除的信息和DNN的注意力可视化,以解释AdvDrop生成的敌对样本
建议的方法
AdvDrop是一个由几个部分组成的方法,如下图所示。
- DCT(离散余弦变换):DCT将输入图像从空间域变换到频率域。
- 量化:量化是核心过程,通过应用在对抗性损失的基础上创建的量化表,放弃信息。
- IDCT(反离散余弦变换):IDCT将图像信号从频域反转到空间域。
- 对抗性损失:建议的方法通过最小化对抗性损失来优化量化表。
AdvDrop以上图所示的流程生成对抗性图像。首先,使用DCT将输入图像从空间域转换到频率域,然后进行量化处理,在转换后的图像中删除某些频率。随后,图像的频率信号通过在空间域使用IDCT进行反变换而得到优化。在优化过程中,定量表的数值会被调整。
敌对性损失
交叉熵误差被用于敌对损失。
最小化对抗性损失优化了量化表,并有选择地从输入图像中删除信息,使目标模型失灵。
量化
量化是通过两种操作进行的:舍入和截断。前者将原始值映射到最接近的量化点,而后者则限制了要量化的值的范围。一般来说,量化是一个由以下公式描述的操作
量化表与上式中的Δ相对应。在对量化表进行除法后,通过四舍五入和截断来减少信息。
实验
在评估了AdvDrop的感知和攻击性能后,对AdvDrop在不同防御技术下的性能进行了评估。最后,将AdvDrop掉落的信息与模型注意力一起进行分析。
感知性能
随着量化表的约束条件的增加,可以看到细节信息逐渐消失,如下图所示。
然后将AdvDrop生成的敌对样本与其他攻击方法进行比较。我们采用lpips作为感知指标,以符合人类判断的方式衡量两幅图像的相似程度。lpips值代表感知上的损失,数值越低越好。下图在Y轴上显示了由lpips计算出的感知损失,在X轴上显示了所产生的图像与原始图像相比的尺寸变化百分比。例如,对于AdvDrop-100,x轴值显示,与正常图像的大小相比,敌对图像的大小平均减少36.32%。另一方面,在PGD中,与AdvDrop相反,生成的敌意图像的大小要比原始图像大。因此,在PGD的情况下,X轴的数值代表了尺寸比的增加程度。从这个图中可以看出,在这两种情况下,与PGD相比,AdvDrop生成的对抗性图像在感知上与原始图像更加一致,尽管相对尺寸比的变化与PGD相比更大。
评估进攻的表现
接下来,AdvDrop的性能对目标和非目标类型进行了评估。准备了三种类型的量化表约束条件,并分别对其进行了评估。结果显示在下面的表格中。
如表所示,放宽约束条件ε可以提高AdvDrop对目标和非目标类型的成功率。当ε为100时,成功率几乎达到100%。
从下图也可以看出,与非目标环境相比,在目标环境下,成功的攻击需要更多的步骤。
防御性方法下的AdvDrop
在这一节中,评估了所提出的AdvDrop在不同防御方法中的有效性,并与其他敌意攻击进行了比较。在这里,对抗性样本首先由对抗性攻击产生,如PGD、BIM、C&W、FGSM和DeepFool。然后我们针对这些样本测试不同的防御方法,如对抗性学习和JPEG压缩,并评估这些攻击在防御下的强度。结果显示在下面的表格中。
结果表明,在应用每种防御方法时,所提出的方法比其他攻击方法有更高的攻击成功概率。
可视化和分析
我们测试了在一个给定的图像中,哪些地方和哪些信息被AdvDrop减少。为了测试这一点,我们将模型的注意力水平和AdvDrop在给定图像的不同区域丢弃的信息量可视化。结果如下图所示。
在本图的第一种情况下,模型主要集中在花的部分,而AdvDrop同时丢掉了花萼和花的部分。在第二种情况下,我们可以看到模型集中在企鹅的头部,而AdvDrop主要丢弃身体部分的信息,这部分有关于企鹅皮毛的丰富纹理细节。
摘要
在本文中,作者从一个新的角度研究了对抗性鲁棒性,并提出了一种叫做AdvDrop的新方法,它通过丢弃图像中的现有细节来创建对抗性样本。作者计划在未来使用其他方法来去除图像中的信息,因此我们期待着进一步的发展。
与本文相关的类别