
通过 CLIP 评估零镜头图像理解模型的鲁棒性
三个要点
✔️ 使用 CLIP 进行的一项综合基准研究调查了多模态基础模型的零点稳健性 。
✔️ 使用 CLIP 进行的试点研究显示,鲁棒性有所降低,尤其是在面对合成数据和攻击时。数据重复分析表明,部分鲁棒性可能是由于数据重复造成的。
✔️ 展望未来,要提高 CLIP 和其他多模态模型的稳健性,需要制定新的策略、考虑数据多样性、引入新的评估指标、实际应用和应用以及国际合作与共享。
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study
written by Chenguang Wang, Ruoxi Jia, Xin Liu, Dawn Song
(Submitted on 15 Mar 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
通过对原始文本中的图像表征进行预训练,可以开发出图像理解模型,无需事先训练即可应用于特定任务。例如,CLIP 等多模态底层模型是在从数百万互联网收集的样本上训练出来的,随后在零镜头上表现出色,无需额外的特定任务训练。这些模型显示出与在 ImageNet 上训练的模型相当的性能,而且对自然分布变化具有鲁棒性。这种鲁棒性在安全关键型应用中至关重要。
本文全面评估了针对不同转变和攻击的鲁棒性,并证明了鲁棒性的重要性:使用 CLIP 进行的试点研究显示鲁棒性有所降低,尤其是针对合成数据和攻击的鲁棒性。数据重复分析表明,部分稳健性可能是由于数据重复造成的。总之,全面评估鲁棒性和提高零点多模态模型鲁棒性的重要性得到了强调。
导言
评估鲁棒性非常重要,不仅要考虑自然分布变化,还要考虑对噪声和敌意攻击的鲁棒性。本研究利用 CLIP 全面评估了零镜头图像分类的鲁棒性,并引入了新的鲁棒性测试集。
这表明了稳健性在多模态应用中的重要性,并有助于评估其他模型。它还强调了提高零点射击多模态地基模型稳健性的必要性。
建议方法
ROZ 基准是用于测量多模态基础模型稳健性的综合测试集。该基准为当前的稳健性数据集套件增加了一个新的测试集,并提供了更广泛的稳健性评估。
主要内容侧重于通用鲁棒性测试集和敌对攻击。它分为自然分布转移和合成分布转移两类,每一类都包含不同的数据集。自然分布偏移包括七种偏移,其中包括 ImageNetV2 和 ObjectNet。合成分布偏移包括 ImageNetC 和 Stylized ImageNet 等数据集。除此之外,还测试了对敌对攻击的鲁棒性。测试中使用了多种攻击技术,包括定向攻击和基于转移的攻击。
该基准主要侧重于零镜头图像分类器,并使用 CLIP 模型对性能进行评估;CLIP 同时处理图像和文本,并使用经过自动训练的提示来执行图像分类。此外,还评估了 CLIP 模型与现有标准模型相比的鲁棒性。
最后,根据有效稳健性和相对稳健性这两类指标来评估模型的稳健性。这样就能全面了解模型的稳健性。
试验
研究主要集中在三个方面:自然分布的变化、合成分布的变化和敌对攻击。
自然分布的变化是指模型在日常环境中所面临的数据变化。例如,它评估图像分类模型能否在新背景或新照明条件下对图像进行充分分类。相比之下,合成分布的变化指的是模型在训练过程中没有遇到的人工生成数据的变化。这考验的是模型是否能适应新的环境和条件。最后,对抗性攻击可评估模型是否容易受到故意制造的误导数据的影响。这是一种测试模型是否能正确应对攻击性数据的技术。
首先,与标准模型相比,CLIP 模型在自然分布变化方面的稳健性有所提高。特别是,在自然分布偏移方面,CLIP 有效地提高了鲁棒性。这意味着 CLIP 在图像分类任务中比标准模型表现得更好。然而,对于合成分布的变化和对抗性攻击,则显示出不同的结果。
红色:标准 ImageNet 模型 蓝色:零镜头 CLIP 模型 紫色:CLIP-Auto 模型
上图中合成分布的变化表明,CLIP 的鲁棒性有下降的趋势。特别是,研究表明 CLIP 很容易受到在图像中添加文字的攻击。这意味着 CLIP 经过训练后可以同时对图像和文本做出反应,因此文本的敌意变化可能会使模型失效。
此外,在敌意攻击方面,CLIP 的鲁棒性不如标准模型。特别是,CLIP 容易受到排版攻击,性能明显下降。这表明,CLIP 不仅依赖于图像表示,还依赖于文本,而文本的恶意更改会影响模型的性能。
总之,本研究对多模态模型 CLIP 的鲁棒性进行了全面评估,表明它对自然分布变化的鲁棒性很高,但对合成分布变化和对抗性攻击的鲁棒性较低。这为今后的模型设计和学习策略提供了重要启示。
数据重叠分析
以数据重复为重点的 CLIP 稳健性新视角。
预训练数据集可能包含测试数据集的部分内容,这可能会影响自然分布偏移的性能;CLIP 进行了重复数据分析,但发现该分析不够严谨。建议的方法是从测试集中移除与训练样本相似的图像,以创建一个干净的测试集,并重新评估鲁棒性。
该方法使用 ResNet 50x16 图像编码器检测重复图像,并排除相似度超过阈值的图像。研究了数据重复对鲁棒性的影响,重点是比较自然和合成分布偏移。结果表明,清理重复数据对于评估鲁棒性非常重要。
结论
本研究通过使用 CLIP 进行综合基准测试,研究了多模态基础模型的零点稳健性。结果表明,CLIP 对合成分布偏移或对抗性攻击不具有鲁棒性,而之前报告的对自然分布偏移的鲁棒性可能是由于数据重复造成的。这与 CLIP 原始论文中描述的结果不同。全面的鲁棒性评估对实际应用非常重要,对安全关键领域的应用也有影响。
展望未来,要提高 CLIP 和其他多模式模型的稳健性,需要制定新的战略,考虑数据的多样性,引入新的评估指标,在现实世界中应用和应用,以及国际合作与共享。
与本文相关的类别