对自我监督学习的后门攻击。
三个要点
✔️ 针对自我监督学习方法的后门攻击
✔️ 经过验证的定向攻击,将污损的数据注入到特定的类别中
✔️ 针对MoCo、BYOL、MSF和其他SSL方法的成功后门攻击
Backdoor Attacks on Self-Supervised Learning
written by Aniruddha Saha, Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Hamed Pirsiavash
(Submitted on 21 May 2021 (v1), last revised 9 Jun 2022 (this version, v3))
Comments: CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,用于在大型无标签数据集上学习视觉表征的自监督学习方法(如MoCo、BYOL、MSF)已经非常成功。
然而,使用大量未标记的数据进行训练会使它们更容易受到后门攻击,因为检查数据是否被攻击者污染的成本很大。
本文介绍了一篇成功执行针对自我监督学习的后门攻击的论文,该论文主要针对监督学习进行研究。
攻击者的目标
首先,我们考虑在攻击自我监督学习(SSL)模型的情况下,攻击者的设置。
在这里,攻击者的目标是在SSL模型中插入一个后门,当该模型被用作下游任务分类器的骨干时,使分类器对包含某些补丁(触发器)的输入作出不正确的预测。它还可以通过允许分类器对不包含某些补丁的输入进行与清洁分类器一样的表现,使检测后门更加困难。
SSL模型可以在没有注释的情况下学习与监督学习几乎相同的特征,并且最近能够使用通过从网络下载公共图像创建的大型数据集,如Instagram-1B和Flickr图像数据集。
在这些情况下,攻击者不难将受污染的数据引入其中,因为来自网络的图像被用于SSL而不被审查。
攻击者的知识和能力
通过在网络上发布受污染的数据,攻击者可以将受污染的数据注入网络上一些自动收集的图像中,用于SSL模型训练。
因此,攻击者无法控制SSL模型的训练,也没有关于模型的架构、优化器和超参数的信息。
有针对性的后门攻击
针对SSL模型的后门攻击可以通过以下方式进行
- 生成受污染的图像:在特定类别的图像上粘贴一个触发器(图像补丁),并将其注入训练集。含有被污染图像的类别就成为目标类别。
- 自我监督的预训练:视觉特征是由SSL算法在受污染的数据集上学习的。
- 转移学习到监督任务:在SSL模型中学习的特征被用来训练下游监督任务中的线性分类器。
- 在测试过程中:如果攻击成功,下游任务中的分类器对干净的图像表现良好,但对含有触发器的图像却错误地预测了目标类别。
实验装置
数据集。
在针对SSL模型的后门攻击实验中使用的数据集如下
- ImageNet-100:ImageNet的一个随机的100类子集,经常被用作自我监督的基准。
- ImageNet-1k:ImageNet数据集,包括130万张1000级的图像。
后门触发器
对于后门触发器,使用的是HTBA(隐藏触发器后门攻击)公共触发器。这是一个正方形的触发器,随机的4x4 RGB图像通过双线性完成修改为所需的大小。在实验中,触发器的指数从10到19,在比较不同的方法时,使用相同指数对应的触发器,以提高可重复性。
自学方法
实验采用了以下六种自我监督的方法
- MoCo v2:使用ResNet-18作为骨干网。
- BYOL:使用ResNet-18作为主干网。
- MSF:使用ResNet-18作为骨干网。
- 拼图
- 循环网
- MAE(屏蔽式自动编码器):使用ViTB作为骨干。
评估特征
SSL模型是通过在下游监督任务上训练一个线性分类器来评估的。在训练线性分类器时,训练集中不包括被污染的图像。
对ImageNet-100的有针对性的攻击。
首先,对ImageNet-100的随机类别进行了有针对性的攻击实验。
触发器是从HTBA触发器中随机选择的,尺寸设置为50x50。触发器被粘贴到图像中的一个随机位置,污染了所选类别中的一半图像。污染图像的数量约为650张,注入率为0.5%。请注意,在训练SSL模型时使用被污染的训练集,在训练线性分类器时使用1%或10%的清洁训练集。
ImageNet-100验证集被用来评估线性分类器,衡量它们在有和没有额外触发器的情况下的性能。
用1%的ImageNet-100训练一个线性分类器的结果如下所示。请注意,已经用不同的目标类-触发器对进行了10次实验。
一般来说,MoCov2、BYOL和MSF对已打过补丁的数据的假阳性(FP)数量明显增加,表明后门攻击是有效的。
另一方面,不是基于范例的方法的Jigsaw和RotNet,以及非常新的方法MAE,都没有显示出太大的效果。对10%的ImageNet-100进行线性分类器训练的结果也显示如下。
同样对于这种情况,后门攻击在MoCov2、BYOL和MSF中被发现是有效的。此外,以下是一个例子,说明后门模型在实践中无法预测的情况。
当改变注射率时
当注射率与以前的实验(0.5%)发生变化时,假阳性的数量变化如下。
对1%、0.2%、0.1%和0.05%的注入率进行了测试,较低的注入率导致了较低的攻击成功率,最低的0.05%的注入率接近于清洁模型。
请注意,尽管ImageNet-100每个类别包含约1300张图片,但更大的无标签数据集,每个类别的图片数量更多,即使注入率较低,也可能更容易成功地进行有针对性的攻击。
ImageNet-1k中的目标攻击。
接下来,在ImageNet-1k上进行了实验。请注意,由于ImageNet-1k中的类别很多,我们通过污染单一目标类别中的所有图像来实验0.1%的注入率。
目前MoCo v2中的结果如下。
此外,利用WordNet的层次结构,发现逐个超类的后门攻击也很有效,例如,当为猫科动物家族创建一个由10个子类组成的超类,并对每个类别的1/10进行污染时,FP最高的前10个类中有5个属于猫科动物家族类别研究结果。
对ImageNet-100的非目标攻击。
与过去不同的是,对非目标攻击进行了实验,随机污染了5%的训练图像,结果如下
攻击导致模型的准确率下降了5个百分点,但总体准确率的下降比有针对性的攻击要小。
这可能是由于触发器补丁存在于不同的类别中,使得SSL模型更难将一个触发器与一个特定的类别联系起来。
关于防御性方法
针对SSL模型的成功后门攻击可以归因于这样一个事实:由于SSL方法的性质,某些触发器与某些类别密切相关,它学会了将两个应用于图像的不同增强值的嵌入接近。经典的SSL方法Jigsaw和RotNet在目标攻击中并不有效,这也说明了这一点。
然而,经典方法的表现不如较新的方法,所以最好建立某种形式的防御。
该论文指出,对后门攻击的防御措施是在一个小的清洁数据集上进行知识提炼(在论文中使用ComPress),以避免后门的影响。结果如下。
如表所示,在ImageNet的一些(25%、10%和5%)干净的数据集上进行知识提炼,显示出明显降低了后门攻击的有效性。
特征空间的分析
最后,后门和清洁模型的特征空间的可视化显示如下。
如图所示,在后门模型中,含触发器的图像(Patched Data)的嵌入分布在目标类别图像附近,而在清洁模型中几乎是均匀分布的。
因此,在后门模型中,随着包含触发器的图像在嵌入空间中变得更接近目标类别图像,目标类别的假阳性就会增加。
摘要
已经证明,可以通过针对自我监督学习的训练集注入污染的图像,并将包含触发器的图像展示给在下游任务上训练的线性分类器,来进行后门攻击。
这种攻击被发现在SSL方法中是有效的,如MoCo v2、BYOL和MSF,在这些方法中,应用于同一图像的不同Augmentation的两个图像的嵌入被训练成接近。
虽然最近的SSL模型的成功依赖于使用大型无标签数据集的能力,但已经很清楚,同时存在着被攻击者引入的污染数据的风险。
解决这些弱点可能对未来SSL方法的发展很重要。
与本文相关的类别