消除攻击噪音,双流修复网络!
三个要点
✔️ 提出了TRN,一种在敌意攻击下去除图像攻击噪声的方法。
✔️ TRN使用对抗性实例及其梯度来推断原始图像
✔️ 记录了比迄今为止提出的任何防御方法更高的性能
An Eye for an Eye: Defending against Gradient-based Attacks with Gradients
written by Hanbin Hong, Yuan Hong, Yu Kong
(Submitted on 2 Feb 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
研究概况
在这项研究中,我们提出通过恢复图像的原始图像来防御基于梯度的对抗性攻击(对抗性实例)。这种修复方法使用对抗性实例及其梯度。使用这种方法,我们记录了比以前的防御方法更高的性能。此外,修复后的图像对每个数据集都有一定的特征,这一点将稍加讨论。
研究背景。
什么是敌意攻击?
对抗性攻击是向输入数据添加噪音的攻击,从而使人工智能做出不正确的决定。有各种方法来增加这种噪音,这项研究的重点是基于梯度的攻击方法。基于梯度的攻击方法包括以下内容。
- FGSM
- PGD
- BIM
- MIM
- FFGSM
所有这些方法的共同点是,它们向输入数据添加噪音,使人工智能在正确识别时有更高的损失。这种噪音可以通过解决以下方程得到
防御性措施
已经提出了各种防御敌意攻击的方法。有些,如本研究,从受到敌意攻击的输入数据中去除噪音,而另一些,如对抗性训练,在学习过程中包括受到敌意攻击的数据。本研究对这些方法及其性能进行了比较。
建议的方法(TRN)
它通过消除敌意攻击所增加的噪音和恢复原始图像来防御敌意攻击。作为一个概述,该防御系统基于以下架构。
在恢复原始图像时,使用被攻击的图像和攻击时的图像梯度。由于我们所针对的攻击方法是基于梯度的,作为攻击中使用的信息,梯度也被用来恢复原始图像。然而,攻击者可能知道,但防御者不知道,输入数据的正确正确标签是什么。没有这些信息,就无法计算损失函数,因此无法正确计算梯度。因此,辩护人计算了所有标签的梯度。总的来说,这被称为梯度图。这个梯度图被用来作为模型的输入。
作为验证梯度图正确工作的实验,我们进行了一个实验,将CIFAR10的梯度图可视化。结果如下图所示。
该图显示的是用一幅图像计算的梯度图,该图像原本是6级,但由于受到敌意攻击而被识别为8级。图中显示,被敌意攻击错误识别的类的梯度图显示了其他类中没有的特征。因此,可以看出,这个梯度图中的信息可以用来判断一个图像是否受到了敌意的攻击。
为了训练TRN,梯度图和被攻击的图像被用作输入数据,原始图像作为正确的数据。在TRN概览图中被称为融合块的部分有以下结构。
这种融合块结构被用来成功地将梯度图持有的信息与被攻击图像持有的信息相乘。一个名为Fusion Connection的连接被用来分享信息。剩余连接也被使用,这样即使许多融合块被堆叠在一起,学习也能进行。
实验
与其他防御方法的性能比较
对于每一种攻击方法,都对迄今为止提出的各种防御方法和拟议的方法进行了比较。下表显示了比较的结果。
该表显示,建议的方法对任何攻击和任何数据集都更加稳健。
在对抗性学习过程中使用的算法所带来的性能差异。
然后,下表中研究了用于创建训练TRN时需要准备的对抗性样本的攻击方法,以及不同的攻击方法在实际攻击时对TRN的性能有何影响。
左边显示的是简单的对抗性攻击期间的准确度,右边显示的是拟议方法期间的准确度。该表显示,无论用哪种攻击方法训练,也无论当时使用哪种攻击方法,所提出的方法都比对抗性训练取得了更高的准确性。变化列也显示了最大和最小准确度之间的差异,这一列显示差异小于对抗性训练。
真的有必要同时输入图像和梯度图吗?
作为TRN的输入,敌意攻击图像和图像的梯度图被用来验证它们是否真的有必要。结果显示在下面的表格中。
该表比较了每个学习过程中基于PGD的对CIFAR10的攻击的四种情况:没有防御时,只用梯度图恢复原始图像时,只用被攻击的图像恢复原始图像时,以及用TRN恢复原始图像时。该表显示,当两类信息都使用时,得分全面高于只使用其中一种的情况,这表明图像和梯度图都需要作为TRN的输入。
关于可扩展性
TRN使用一种称为融合块的结构来混合两个输入(图像和梯度图);由于其结构,一个融合块可以根据需要多次连接。本节探讨了这一功能在国防方面的好处。
下表显示了每个数据集的融合块数量和使用PGD攻击的准确性之间的关系。
该表显示,每个数据集达到最高精度时,融合块的数量是不同的。因此,可以看出,根据需要改变融合区块的数量的能力在防御方面是有帮助的。
讨论
使用TRN修复图像的例子如下图所示。
该图左栏为原始图像,中间一栏为对手攻击的图像,右栏为通过TRN恢复的图像。该图显示,在CIFAR10中,通过使用TRN可以干净地去除由敌意攻击造成的噪音。然而,在《时尚MNIST》和《SVHN》中,可以看到TRN通过添加晶格图案来防止攻击。作者分析说,这是由于与CIFAR10不同,《时尚MNIST》和《SVHN》的数据分布很简单,所以这种简单添加网格的温和修复方法就足够了。
摘要
本文提出了一种基于梯度的对抗性攻击的方法,即从被攻击的图像中去除攻击的噪声以防止对抗性攻击。用于这种噪音去除的模型,TRN,使用输入图像及其梯度图来确定要去除的噪音。我们发现简单数据分布的噪音去除结果很有趣,希望看到通过将这种方法应用于各种数据集来进一步验证。
与本文相关的类别