通过删除信息进行敌意攻击的技术!

对抗性扰动 06/01/2023

三个要点
✔️ 在原始数据中添加噪音以误认DNN模型是传统的对抗性攻击方法
✔️ 所提出的方法通过删除原始数据的信息进行攻击
✔️ 验证当前防御方法与其他攻击相比的抵抗力。

AdvDrop: Adversarial Attack to DNNs by Dropping Information
written by Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, A. K. Qin, Yuan He
(Submitted on 20 Aug 2021)
Comments: ICCV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

误认DNN模型的攻击被称为对抗性攻击，传统上它们是通过向原始数据添加噪音导致误认而进行的。在本文中，我们提出了一种方法，即通过去除原始数据的信息，而不是添加噪音来进行攻击。这源于这样的想法：DNN与人类不同，还没有完全具备识别抽象物体的能力，而人类会认为抽象到可以识别的数据是某种敌对的样本。作者测试了通过删除信息产生的敌对样本对DNN的影响程度。

本文的贡献可归纳如下。

提出了AdvDrop，一种通过去除图像中的信息来生成敌对图像的方法。
验证了AdvDrop在目标和非目标攻击中的有效性，表明AdvDrop产生的敌对样本比其他攻击对目前的防御技术更有弹性。
将删除的信息和DNN的注意力可视化，以解释AdvDrop生成的敌对样本

建议的方法

AdvDrop是一个由几个部分组成的方法，如下图所示。

DCT（离散余弦变换）：DCT将输入图像从空间域变换到频率域。
量化：量化是核心过程，通过应用在对抗性损失的基础上创建的量化表，放弃信息。
IDCT（反离散余弦变换）：IDCT将图像信号从频域反转到空间域。
对抗性损失：建议的方法通过最小化对抗性损失来优化量化表。

AdvDrop以上图所示的流程生成对抗性图像。首先，使用DCT将输入图像从空间域转换到频率域，然后进行量化处理，在转换后的图像中删除某些频率。随后，图像的频率信号通过在空间域使用IDCT进行反变换而得到优化。在优化过程中，定量表的数值会被调整。

敌对性损失

交叉熵误差被用于敌对损失。

最小化对抗性损失优化了量化表，并有选择地从输入图像中删除信息，使目标模型失灵。

量化

量化是通过两种操作进行的：舍入和截断。前者将原始值映射到最接近的量化点，而后者则限制了要量化的值的范围。一般来说，量化是一个由以下公式描述的操作

量化表与上式中的Δ相对应。在对量化表进行除法后，通过四舍五入和截断来减少信息。

实验

在评估了AdvDrop的感知和攻击性能后，对AdvDrop在不同防御技术下的性能进行了评估。最后，将AdvDrop掉落的信息与模型注意力一起进行分析。

感知性能

随着量化表的约束条件的增加，可以看到细节信息逐渐消失，如下图所示。

然后将AdvDrop生成的敌对样本与其他攻击方法进行比较。我们采用lpips作为感知指标，以符合人类判断的方式衡量两幅图像的相似程度。lpips值代表感知上的损失，数值越低越好。下图在Y轴上显示了由lpips计算出的感知损失，在X轴上显示了所产生的图像与原始图像相比的尺寸变化百分比。例如，对于AdvDrop-100，x轴值显示，与正常图像的大小相比，敌对图像的大小平均减少36.32%。另一方面，在PGD中，与AdvDrop相反，生成的敌意图像的大小要比原始图像大。因此，在PGD的情况下，X轴的数值代表了尺寸比的增加程度。从这个图中可以看出，在这两种情况下，与PGD相比，AdvDrop生成的对抗性图像在感知上与原始图像更加一致，尽管相对尺寸比的变化与PGD相比更大。

评估进攻的表现

接下来，AdvDrop的性能对目标和非目标类型进行了评估。准备了三种类型的量化表约束条件，并分别对其进行了评估。结果显示在下面的表格中。

如表所示，放宽约束条件ε可以提高AdvDrop对目标和非目标类型的成功率。当ε为100时，成功率几乎达到100%。

从下图也可以看出，与非目标环境相比，在目标环境下，成功的攻击需要更多的步骤。

防御性方法下的AdvDrop

在这一节中，评估了所提出的AdvDrop在不同防御方法中的有效性，并与其他敌意攻击进行了比较。在这里，对抗性样本首先由对抗性攻击产生，如PGD、BIM、C&W、FGSM和DeepFool。然后我们针对这些样本测试不同的防御方法，如对抗性学习和JPEG压缩，并评估这些攻击在防御下的强度。结果显示在下面的表格中。