对深度学习模型的后门攻击在现实世界中是否可行?
三个要点
✔️ 演示了使用真实世界的物体对DNN模型的后门攻击
✔️ 对ResNet和其他DNN模型的成功物理后门攻击
✔️ 证实了现有的针对后门攻击的防御措施不能有效发挥作用
Backdoor Attacks Against Deep Learning Systems in the Physical World
written by Emily Wenger, Josephine Passananti, Arjun Bhagoji, Yuanshun Yao, Haitao Zheng, Ben Y. Zhao
(Submitted on 25 Jun 2020 (v1), last revised 7 Sep 2021 (this version, v4))
Comments: Accepted to the 2021 Conference on Computer Vision and Pattern Recognition (CVPR 2021).
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。
简介
对深度神经网络(DNN)的对抗性攻击包括扰乱数据以产生虚假输出,将特殊样本混入训练数据集以对具有特定触发因素的图像产生虚假输出(数据中毒)。).
然而,现有的攻击方法需要对输入数据进行特定的数字处理,这可能使得对现实世界中使用的模型进行这种攻击不切实际。在这篇文章中,我们提出了一篇论文,研究由可穿戴配件引发的物理后门攻击,而不是像现有方法中的数字处理攻击。
设置后门攻击
首先,我们将讨论建立一个物理后门攻击。
现有的后门攻击是基于这样的假设:攻击者对正在训练的模型的权重或结构一无所知,并且可以在训练数据中注入少量的 "脏标签 "样本。对于物理后门攻击,我们做了两个额外的假设。
- 攻击者可以收集训练数据中穿着某种触发物的人的图像。
- 可以对所有类进行数据中毒。
在后一种情况下,已经验证了数据中毒只能对某些类进行。
关于物理后门攻击的数据集
由于不存在用于物理后门攻击的数据集,原始论文收集了一个用于人脸识别的数据集。
关于触发器对象
物理后门攻击的触发器包括容易获得的、有各种尺寸和颜色的物体,如彩色圆形贴纸、太阳镜、纹身、白色胶带、头巾和耳环。这些触发物也可以放置在脸上的不同位置。
收集的数据集包括来自不同种族和性别的10名志愿者的535张清洁图像和2670张有毒图像(图像的例子见原始论文)。
关于后门攻击
攻击者可以在模型的训练过程中注入毒数据。在原论文中,基于BadNets方法(),攻击者可以在原始数据集中包含的n$干净图像中加入m$的毒药数据(包括特定的触发器$delta$),用于特定的目标标签$y_t$。(后门注入率,用$frac{m}{n+m}$表示,是衡量攻击者能力的一个重要指标)。
在这种情况下,学习模型时的目标由以下公式表示
其中,$l$是学习损失函数(在所提出的方法中是交叉熵),$theta$是模型参数,$(x_i,y_i)$是干净的数据-标签对,$(x^{prime}_j,y_t)$是有毒的数据-标签对。
设置模型训练
在创建数据集时,我们首先将干净的数据集按80:20的比例分成训练/测试集,然后将随机毒药数据注入训练集,以达到目标注入率。
剩余的毒药数据被用来计算测试时的攻击成功率。另外,由于训练集较小,在训练模型时采用了转移学习和数据增强的方法(详见原始论文)。
实验结果
在下面的实验中,我们使用三种DNN架构(VGG16、ResNet50和DenseNet)来验证一个物理后门攻击。
首先,以特定的注入速度注入触发数据时,VGG16模型的性能如下所示
紫色的线表示模型的准确性,浅蓝色的线表示攻击的成功率,表明使用耳环以外的触发物体(最右边),攻击是成功的,而没有明显降低模型的准确性。此外,对注射率为25%的三个模型的攻击情况如下所示。
一般来说,除耳环外,我们发现使用物理触发器的后门攻击效果良好。
关于物理后门攻击的失败
接下来,我们将进一步研究攻击无效的情况(耳环),其中包括使用各种触发对象的其他情况。
首先,带耳环的图像的模型的CAM(类激活图)如下所示。
从图中可以看出,该模型特别强调图像的面部区域。因此,位于面部以外的耳环很难影响分类结果,这可能是造成攻击成功率低的原因。
事实上,当其他触发对象被置于面内或面外时,以下是结果
如表所示,当触发对象在面部内时,物理后门攻击效果更好。
关于可以被攻击的有限数量的班级
只有数据集的某些类可以注入毒药数据的情况下,其结果如下所示。
该表显示了当可攻击的类被限制在整个数据集中的75个类中只有10个时的结果。
即使在这种配置下,攻击的成功率也很高,证明了物理后门攻击的有效性。
对物理后门的保护
如果物理后门攻击是有效的,那么问题就来了,它们是否可以被防御。
为了解决这个问题,使用现有防御方法对付后门攻击的结果如下
该表显示了现有防御方法检测到的有毒数据的百分比。
一般来说,数字和物理触发器之间的差异意味着现有的防御方法对物理触发的物体不是非常有效。
摘要
现有的针对DNN模型的后门攻击主要限于那些涉及数字进程触发的攻击。
然而,这项研究表明,由现实世界中的物体引发的物理后门攻击确实可以发挥作用。
这可能对广泛的现实世界模型构成严重威胁,使得开发针对物理后门攻击的防御措施成为一个严重的挑战。
与本文相关的类别