赶上最新的AI论文

异常点、新颖性、开放集和离群点检测的统一调查

调查,回顾

三个要点
✔️用统一的方法调查异常、新奇、开放集和离群点检测的类似概念
✔️对这些界限都有不同的定义,用于分离它们的方法也有相应的变化
✔️该调查提供了一个全面的分析,并概述了未来的研究问题。

A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges
written by Mohammadreza SalehiHossein MirzaeiDan HendrycksYixuan LiMohammad Hossein RohbanMohammad Sabokrou
(Submitted on 26 Oct 2021)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code:  

 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

首先

在机器学习模型中,通常会做出 "closed set "的假设,即测试数据来自与训练数据相同的分布(独立同分布)。然而,在实践中,有可能会遇到各种测试输入数据,包括那些没有经过分类器训练的数据。不幸的是,模型可能会误导性地将信心值分配给它们从未见过的测试样本。这导致了对分类器可靠性的担忧,特别是在安全关键应用中。在文献中,有几个领域试图解决在开放世界环境下识别未知/异常/非分布数据的问题。特别是,异常检测(AD)、新颖性检测(ND)、单类分类(OCC)、分布外(OOD)检测和开放集识别(OSR)等问题由于其基本的重要性和实际的相关性而受到极大的关注。尽管它们被用于类似的任务,但它们的差异和相关性往往被忽视。

具体来说,OSR在N类训练数据集中的K类上训练模型,在测试时,模型面临着N-K个不同的类,这些类在训练时没有被看到,OSR将正确的标签分配给在测试时看到的样本,并检测出在客观上没有被看到的样本。新颖性检测和1类分类是K为1的开放集识别的极端情况。在多类分类环境中,OOD检测问题是OSR的典型问题。即准确地将分布(ID)中的样本分类到已知的类别中,并检测出在语义上不同、因此不应该被模型预测的OOD数据。然而,OOD检测包含了更广泛的学习任务(如多标签分类、强化学习)和解决空间(如密度估计),我们在本文中对此进行了全面的回顾。上述领域假设可以获得完全正常的训练数据集,而异常检测则假设训练数据集是完全无监督地获得的,没有应用任何过滤,因此可能包含异常样本。然而,由于异常事件很少发生,AD的方法利用了这一事实,并建议在训练过程中把它们过滤掉,以达到最终的语义空间,充分捕捉正常特征。以前的方法主要用于物体检测和图像分类领域,但这样的设置在工业缺陷检测任务中很常见,因为异常事件很少发生,而正常样本都有正常性的概念。请注意,尽管这些区域的表述存在差异,但它们在相同的意义上被使用,因为它们有很多共同点图1显示了这些区域之间的差异的直观表示。

关于异常检测这个重要的研究领域,已经进行了一些调查,但它们都是独立地关注每个领域,或者提供非常普遍的异常检测概念来覆盖所有不同类型的数据集。相反,我们为每个领域的方法提供了详细的描述。通过这种方式,我们在各领域之间架起了桥梁,以便于传播思想和启发未来的研究。例如,使用来自不同数据集的异常点样本来改进特定任务的特征的想法被称为异常点暴露或背景建模,与半监督的异常检测非常相似。尽管这些想法是共享的,但它们在各自的领域都被认为是新颖的想法。

综上所述,本文的主要贡献有以下几点

(1) 澄清不同研究领域之间的关系,尽管它们之间存在着高度的相互联系,但却被分开研究。

(2) 对近期一项突出的研究进行全面的方法论分析,并以理论和形象的方式明确解释所审查的方法。

3)根据现有的基线进行全面的测试,为当前和未来的研究提供一个坚实的基础。

(4) 为未来的研究提供方向,并阐明未来提出的方法所需的基本要素,包括公平性、对抗性的稳健性、隐私、数据效率和问责制。

关于方法分类的一般观点

这里我们有,我们有输入空间X =Rd和标签(输出)空间Y上的随机变量,联合分布PX,Y来自训练样本(X1,y1),(x2,y2),...我们考虑一个数据集,其中X和Y分别是输入空间X=Rd在AD和ND中,标签空间Y是一个正常值和异常值的二进制集合。在测试时,给定一个输入样本x,模型需要在单类设置中估计P(Y = Normal/seen/in-class | X = x);在OOD检测和多类分类的OSR中,标签空间可能包含多个语义类别,因此在AD中,由于输入样本除了正常样本外还可能包含噪声(异常),问题被转化为噪声标签的单类分类问题,但检测任务表述的整体表述没有变化。两种常见的条件概率建模角度是生成式和判别式建模:在OOD检测和OSR设置中,判别式建模可能更容易,因为我们可以获得训练样本的标签,但由于缺乏标签,AD、ND(OCC )很难。这是因为单类分类问题有一个琐碎的解决方案,即把每个输入,无论是正常还是异常,都映射到一个给定的标签Y上,从而尽可能地使目标函数最小。这个问题可以用在以下情况下DSVDD,如,它使用了一个如果我们用大量的训练历时进行训练,则不管是正常的还是不正常的,则这在将所有输入映射到一个点的方法中也可以看到。

然而,对于P(Y | X)的表述,有几种修改的方法可以用来解决这个问题。它们是,即使得归一化分布不发生变化,以及我们对X的分布进行一系列的仿生变换,然后,和$ \sum^{|T|}_{i=1}$ P(Ti|Ti(X))进行估计,并对转换后的输入Ti(X)是给定的,每个变换Ti计算它适用于输入X的综合概率,这等于|T | P(Y | X)。这类似于直接估计P(Y | X),但没有折叠,所以可以用它来代替估计单一类别的条件概率。这种简单的方法避免了折叠的问题,但这个问题取决于变换,因为变换后的输入必须尽可能少地相互交叉,以满足规范化分布的一致性约束。因此,正如后面所显示的,OSR方法可以通过采用AD方法与分类模型相结合来克服这个问题。类似的情况也适用于OOD领域。

在生成式建模中,基于AE(自动编码器)、基于GAN(生成对抗网络)和基于显式密度估计的方法,如自动回归和基于流量的模型,都被用来为数据分布建模。 在AE的情况下在AE中,有有两个重要的假设 如果自动编码器只用正常训练样本进行训练,那么

- 自动编码器是...自动编码器的设计是为了取一个你以前从未见过的正常测试样本。自动编码器将能够像训练样本一样准确地重建一个正常的测试样本。

- 测试时间不正常的样本是.不能被完全重建为正常的输入。

但是......。虽然在最近提出的使用AE的方法中中,的然而,最近提出的使用AE的方法表明,上述假设并不总是正确的。例如,在以下情况下即使即使AE可以完美地重建一个正常样本的情况下,一个移动的仅仅一个像素的偏移就会导致的损失。重建的损失是很大的。

相似的的是另一个著名的模型家族,GAN,是,该AD,以及ND,以及OCCAD , ND , OCC臭氧和OOD。和OOD已被广泛用于检测。当GAN在完全正常的训练样本上进行训练时,GAN的运行假设是

- 如果输入是正常的,那么就存在一个潜在的矢量,如果它是生成的,那么与输入就没有什么分歧了。

- 如果输入不正常如果即使是产生了如果没有与输入相差不大的潜在矢量.

这里,差异可以根据生成的图像和测试时输入的像素级MSE损失来定义,也可以是一个更复杂的函数,如给定生成的图像和测试时输入的判别器特征的层间距离。GAN是,.尽管它已被证明能够捕捉到给定训练数据集的语义抽象。WWW.STEELT.CN模态衰变,以及不稳定的学习过程,以及被不可重复的结果问题所困扰。

最后,自回归模型和基于流量的模型可以用来明确地近似数据密度,并根据分配的似然率检测异常样本。直观地说,正常样本应该比异常样本有更高的可能性,但是正如下面所讨论的,自回归模型给异常样本分配了更高的可能性,即使它们在训练过程中没有看到异常样本,这导致AD、ND、OSR和OOD检测性能下降。为了解决这个问题,在OOD领域已经提出了一些改进措施,可以用于OSR、AD和ND,但是考虑到OOD检测的一般测试协议可能与AD和ND等其他领域有很大不同,因此需要对其可靠性进行更多的评估。

异常和新奇的检测

异常检测(AD)和新颖性检测(ND)在文献中被交替使用,但很少有作品讨论它们之间的区别。在异常检测中,存在某些固有的问题,与训练数据由完全正常样本组成的假设相反。例如,在物理实验中,测量噪声是不可避免的,所以在无监督学习过程中,算法必须自动检测并关注正常样本。然而,对于新颖性检测问题来说,情况并非如此。有许多应用很容易提供一个干净的数据集,只需最小的监督。这些领域随着时间的推移已经被分离出来,但它们的名字在文献中还没有被正确使用。

对异常检测的兴趣可以追溯到1969年,当时它将异常/离群点定义为 "一个看起来与它所出现的样本中的其他成员有很大偏差的样本",并明确假设存在一个大多数训练样本所遵循的基本共享模式。这个定义有一些模糊之处。例如,我们需要为偏离的概念定义一个标准,并使 "显著 "这个词更加量化。为此,在深度学习方法出现之前和之后,人们做出了巨大的努力来使上述概念更加清晰。为了找到偏离趋势的样本,有必要采用一个适当的距离度量。还有一个挑战是选择一个阈值来确定偏离正常样本的情况是否显著。

用于异常检测的鲁棒性深度自动编码器

我们在一个包含异常值和离群值的数据集上训练自动编码器(AE)。在训练过程中检测并过滤掉离群值,假设离群值明显更频繁,并共享正常概念。这样一来,AE只在正常的训练样本上进行训练,因此在异常的测试中不能成功地重建输入。因此,我们使用乘法交替方向法(ADMM)将目标分成两个(或更多)部分并进行计算。

其中E和D分别是编码器和解码器网络。假设LD是训练数据X的离群部分,S是离群部分。然而,上述优化并不是一个简单的解决方案,因为S和θ需要一起优化。为了解决这个问题,采用了乘法器交替方向法(ADMM)。它将物镜分为两个(或多个)部分。第一步,通过固定S,解决参数θ的优化问题,使LD=X-S,目标变成||LD-Dθ((LD))||2.然后通过将LD设置为训练过的AE的重建,S设置为X-LD,解决该规范的优化问题。由于L1规范是不可微分的,因此在每个优化步骤中使用一个近似算子作为近似值,如下所示。

这样的函数被称为缩减算子,在L1优化问题中非常常见。上述使用||S||1的目标函数只将非结构化的噪声,例如训练样本中的高斯噪声,从训练数据集的正常内容中分离出来。为了分离结构化的噪声,例如与大多数训练样本所表达的意义完全不同的样本,可以采用L2,1优化准则,具体如下

我们使用一个近似算子,称为顺时针软阈值函数[27]。在测试过程中,重新配置的错误被用来拒绝异常的输入。

新颖性检测的逆向学习单类分类(ALOCC)

假设我们得到的是完全正常的训练样本,我们的目的是在这些样本上训练一个新奇的检测模型。首先,我们把(R)训练成去噪自动编码器(DAE),以便(1)减少重建损失和(2)在基于GAN的设置中愚弄判别器。这使得DAE能够产生高质量的图像,而不是模糊的输出。发生这种情况的原因是,一方面,AE模型的损失明确地假定每个像素都有独立的高斯分布。而另一方面,像素的真实分布通常是多模态的,所以高斯的平均值必须在不同的模式之间解决。这就导致了在复杂的数据集上出现模糊的图像。为了解决这个问题,可以在一个基于GAN的框架中训练AE,强迫每个高斯的平均值只捕捉相应真实分布的一个模式。此外,通过使用判别器的输出(D)而不是像素级的损失,不能正确重建的正常样本可以被检测为正常。这种损失大大降低了香草DAE的假阳性率(FPR)。

这使得该模型能够产生更高质量的输出,以及具有AE的异常检测的能力。此外,如上所述,检测可以基于D(R(X))。图1.1.2显示了这项工作的整体架构.

使用具有约束性潜在表征的GANs进行单类新颖性检测(OC-GAN)

在完全正常的训练样本上训练的AE可以以更低的误差重建未见过的异常输入。为了解决这个问题,我们试图以一种对抗性的方式使编码器的潜在分布(EN(-))类似于一个均匀分布。同样,解码器(De(-))也被迫重放从均匀分布中采样潜值的类内输出。学习目标将正常特征分布在潜伏空间中,以便重放的输出完全或至少大致类似于正常和异常输入的正常类。我们还在潜空间中使用另一种方法,称为信息性负样本挖掘,以主动寻找产生低质量图像的区域。为此,分类器被训练成能够区分解码器的重建输出和虚假图像。

新颖性检测的潜空间自回归(LSA)

在这个方法中,对于新颖性检测,我们提出了一个叫做 "惊奇 "的概念,它规定了输入样本在潜空间中的唯一性。这个概念规定了输入样本在潜空间中的独特性。一个样本越独特,它在潜空间中的可能性就越小,因此它就越有可能是一个异常样本。当有许多与训练数据集相似的正常训练样本时,这一点尤其有利。对于视觉上相似的训练样本,AE通常被训练为重建其平均值作为输出,以最小化MSE误差。这就导致了这种输入的模糊输出和较大的重建误差。然而,通过同时使用惊讶损失和重建误差,这个问题可以得到缓解。另外,异常样本通常更令人惊讶,这增加了新奇度得分。如图4所示,惊喜得分是使用潜伏空间的自回归模型学习的。自回归模型(h)可以从不同的架构(如LSTM和RNN网络)到更复杂的架构进行实例化。另外,与其他基于AE的方法一样,重放误差也被优化。

记忆辅助的深度自动编码器(Mem-AE)用于无监督的异常检测

在这个方法中,我们挑战了使用AE时的第二个假设。我们表明,即使训练数据集不包含任何异常样本,异常样本也有可能被完美重建。直观地说,AE没有学习唯一描述正常样本的特征,因此,它可能从异常输入中提取异常特征并完美地重建它们。因此,有必要学习只准确重建正常样本的特征。为此,Mem-AE采用了一个存储正常训练样本的独特和充分特征的存储器。在训练过程中,编码器隐含地扮演了存储器的地址发生器的角色。编码器生成嵌入,与生成的嵌入相似的内存特征被合并。结合后的嵌入被传递给解码器以产生相应的重建输出。Mem-AE还采用了稀疏的寻址技术,只使用少量的内存项。因此,Mem-AE的解码器被限制使用少量的内存项进行重构,不需要有效地利用内存项。此外,重建错误导致内存记录了代表正常输入的原型模式。

重新定义逆向学习单组分类器的学习范式(旧的是黄金)。

这种方法是ALOCC思想的延伸,它是在GAN的基础上训练的,存在稳定性和收敛性问题。一方面,ALOCC的过度训练会因为现实中产生的错误数据而混淆判别器D。另一方面,ALOCC训练不足会混淆判别器D,而训练不足会使判别器的特征不那么可用。为了解决这个问题,我们提出了一个两阶段的学习过程。在第一阶段,我们进行类似于ALOCC的训练过程。

随着第一阶段的进行,一个低波段的生成模型Gold被保存下来,以便以后在第二阶段的训练中使用。在第二阶段,样本$ hat{X} $ =G被认为是高质量的重构数据。样本$ \hat{X_{low}} = Gold(X)被认为是低质量样本。然后创建伪异常样本,如下所示。

逆向镜像自动编码器(AMA)。

AMA的整体架构与ALOCC相似。然而,AMA挑战了AE的第一个假设:事实证明,lp准则不适合在异常检测区域训练AE,因为它导致了模糊的重建,随后增加了正常样本的误差。为了解决这个问题,AMA提出使分布PX,X和$ P_{X,\hat{X}}之间的Wasserstein距离最小。$.

用生成对抗网络实现标记发现的无监督异常检测(AnoGAN)。

在这种方法中,GAN在正常的训练样本上进行训练,在测试时,解决一个优化问题,试图通过最小化不一致来找到最佳潜伏空间z。给定一个生成的图像和一个输入的图像,通过结合生成的图像和输入的图像的像素级损失与不同层的判别器特征的损失来找到差异。直观地说,任何正常的测试时间样本都能找到所需的潜在矢量,甚至是异常的。图8显示了我们方法的结构。图9比较了AnoGAN和Efficient-GAN的结构。

OC-SVM

初级AD方法使用统计学方法来检测异常输入,如将每个样本与训练数据集的平均值进行比较,这就是.强加了隐含的高斯分布假设,不能泛化到训练数据集上。减少假设的数量和,以及为了克服上述传统统计方法的缺点、、、、。顾名思义,OC-SVM是一个单类SVM,它使用一个一边包含样本,另一边包含原点的超平面,使训练样本与原点的距离最大化。方程19显示了OC-SVM的原始形式,它试图找到一个空间,其中正好有8个训练样本在一边,原点的距离越在线上,得到的优化问题的解就越好。

深度一分类(DeepSVDD)

这种方法是SVDD的延伸,使用深度网络试图找到训练样本之间存在共同特征的空间,使训练样本被压缩到周围体积最小的球体中。与传统方法不同的是,我们通过优化参数W,自动学习核函数φ

深度半教师异常检测

这是一个半监督版本的DSVDD,假定有有限数量的标记的标准样本。损失函数的定义是使其最小化与标准样品预定中心的距离,但标注的标准样品的数量有限。损失函数被定义为最小化与标准样品的预定非球面中心的距离。

使用几何变换的深度异常检测(GT)。

GT试图从单类问题转化为多类分类;GT定义了一组不改变数据分布的变体,并训练一个分类器来区分它们;本质上,分类器是以自我监控的方式进行训练。它还将不同的变换应用于输入,并将相应的Dirichlet概率之和作为新颖性得分。

通过分离器网络中的内值优先级进行有效的端到端无监督的离群点检测。

与GT类似,我们的方法采用自我监督学习(SSL)任务来训练异常检测器,除非在训练数据集中存在少量的异常值或异常样本。然而,由于训练数据集中存在异常样本,异常样本的客观得分不一定很高。为了解决这个问题,有研究表明,每一步梯度的大小和方向都有强烈的倾向性,即最小化异常点样本的损失函数。因此,与异常得分相比,该网络产生的得分较低。

基于分类器的一般数据异常检测(GOAD)

这个方法与GT非常相似。然而,它不是使用交叉熵损失或为最终的保密性学习Dirichlet分布,而是找到每个变换的中心,并使每个变换数据与其相应中心之间的距离最小。

这个想法可以看作是DSVDD和GT的结合,其中使用GT变换并学习不同的压缩超球来分离它们。在测试时对每个样本进行M种不同的变换,正确标签概率的平均值被分配为异常得分。

CSI:通过分布式转变实体的对比学习进行新颖性检测

在这个方法中,我们试图在一个类似于SimCLR的对比性框架中制定新颖性检测的问题。对比学习的想法是学习一个编码器,提取区分相似样本和其他样本所需的信息,其中x是查询, x+ x-分别是正面和负面样本集,z是编码器的输出特征或每个输入gφ(fθ(x ))的附加投影层,让sim(z,z)是余弦相似度。对比度损失被定义为

在对比学习中,需要定义一组负样本。为此,指定了一组改变训练样本(S)分布的变换,当应用于每个输入时,就会产生所需的负集。例如,旋转或补丁排列完全改变了原始输入样本的分布。因此,它们可以被用作负样本。

不知情的学生。用差异化的潜伏嵌入检测学生和教师的异常情况

在我们的方法中,使用度量学习和知识生成技术训练一个教师网络,以提供一个语义和鉴别性的特征空间。教师T是通过首先学习一个网络$ \hat{T} $来获得的,该网络将一个补丁大小的图像p嵌入到公制空间中。然后,从$ \hat{T} $到T的确定性网络转换可以用来实现对整个输入图像的快速和密集的局部特征提取。为了学习$ \hat{T} $,我们通过随机切割图像数据库,如ImageNet,获得大量的训练斑块p。

异常检测和定位的自我监督学习(CutPaste)。

在我们的方法中,我们设计了一个简单的SSL任务来捕捉局部像素级的规律性,而不是全局语义级的规律性:当GT和GOAD进行旋转、平移和抖动等变换时,CutPaste通过剪下训练输入的一部分并将其复制到另一个位置来进行变换。该网络已被训练成能够区分有缺陷的和完整的样本。额外的辅助任务,如切出和疤痕,可以与剪切-粘贴操作结合使用。训练结束后,根据正常训练样本的置信度分数训练KDE或高斯密度估计器,并在测试期间使用。由于这种方法的简单性,对于分类任务来说,它很容易被过度拟合。

异常检测的多分辨率知识提炼(Multi-KD)。

生成模型适用于检测像素级的异常,但对于复杂的语义级异常可能会失败。另一方面,判别模型则更适合于捕捉语义。要设计一个既能捕捉语义又能捕捉语法的SSL任务并不容易。为了解决这个问题,Multi-KD试图将VGG中预训练的网络中间层(中间知识)模仿成一个更简单的网络,使用提炼的知识。通过这种方式,可以得到一个正常学习分布的多分辨率模型,在测试过程中可以用来检测像素和语义两个层面的异常情况。这里,知识的概念被定义为ImageNet上预先训练好的网络的长度和方向。由于克隆人网络与源网络相比具有简单但总体上相似的结构,因此在正常的训练样本中,其知识将与源网络相似。在测试时,对于正常的测试时间的样本,克隆人能够跟随源头,但对于异常的样本则失败。这导致了在测试时可以使用的高差异。图14显示了整体架构。

开放集识别

开放集识别(OSR)比AD或ND接受更多的监督。在这种情况下,在训练时给出K个正常类,在测试时有N个未知类和K个已知类。其目的是在对已知类进行分类的同时识别未知类。这种技术有很多用途,例如当有可能对正常数据集进行标记时,或者有可能收集到不包含任何异常样本的干净数据集时。由于需要更多的监测,训练数据被分为四类。

-知名的已知类(KKC)。已知的训练样本。它是已经给定和标记的。

- 已知未知类(KUC):已知未知的训练样本。换句话说,它们不属于任何已知类别。例如,背景图像和已知不属于任何已知类别的图像就属于这一组。这些已经被赋予和标记了。

- 未知已知类(UKC):不知道是已知类的训练样本。例如,已知测试时间的样本就属于这一组。这些都是在训练阶段没有给出的。

- 未知未知类(UUC):未知类。不知道是什么的训练样本。例如,具有未知测试时间的样本就属于这一组。它们在训练阶段不被赋予。

迈向开放集深层网络(OpenMax)

这种方法解决了分类模型对未见过的测试时间的样本产生过度自信的分数的问题。由于Softmax计算中的归一化,两个具有非常不同的logit分数的样本可能具有相同的置信分数分布;OpenMax不使用置信分数,而是使用由激活向量(AV)表示的logit分数。每个样本的AV代表每个类别的分布。平均AV(MAV)被定义为所有样本的AV值的平均值。对于每个输入样本,对应于ground-truth的AV值被认为是高的,与MAV的相应值的距离也被认为是高的。考虑到AV的每个元素与MAV的相应元素之间的距离是一个随机变量,一个正确分类的输入将有与ground-truth元素的最高距离会。当有几个类与正确答案有很强的关系,但并不正确时,就会发生这种情况。例如,豹类是正确答案,而猎豹是与之最接近的类别。

用于多类开放集分类的生成性OpenMax(G-OpenMax)。

这种方法与OpenMax类似,只是它在GAN中人为地生成了UUC样本,并对OpenMax进行了调整。这样就不需要准备一个验证数据集了。

带有反事实图像的开放集学习

这种方法遵循G-OpenMax中生成UUC样本的思路。生成的输入与KKC相似,但它不应该被归入同一类别。这种生成的输入被称为反例。这些样本对于近似实际的UUC分布很有用,因为它们接近UUC的边界。

减少网络恐惧症

在物体检测等应用中,通常有一个叫做背景的类别。在互联网上,有大量的样本被检索出来,这些样本可以作为一个特定任务的 "背景"。在这项工作中,我们采用背景样本作为辅助的KUC分布来训练一个分类器。这种训练定义了边际,其中KUC的特征大小较小,KKC的特征大小较大。同时,对于背景样本,信任层的熵是最大的。这相当于增加分类器对这种输入的不确定性。在这个训练中,我们采用了一个简单的熵开放集损失,使信任分数的熵最大化,以及一个目标球体损失,使最终特征的L2规范最小化。图18显示了每个损失对最终层中每个类别样本的几何位置的影响。

用于开放集识别的类条件自动编码器(C2AE)

在这种方法中使用AE的第二个假设是,测试时间不正常的样本不会以与正常样本相同的方式进行重建,但在OSR中,尽管有AD和ND,学习标签可以增强AE的能力。

然而,在OSR中,尽管有AD和ND,学习标签可以增强AE的能力。我们将假设AE是一个元识别函数,其编码器是识别任务的分类器。直观地说,我们希望编码器能够提供一个嵌入,能够正确地对通过的样本进行分类并重建原始输入。此外,我们要确保编码器的嵌入不能被轻易转换,例如通过线性转换,这样AE就不能使用学到的特征来重建异常的或不可见的输入。.

用于多类新颖性检测的深度过渡学习(DTL)。

这种方法也遵循使用背景数据集(称为参考数据集)的思路。DTL解决了在OSR中使用softmax损失的缺点。我们提出了一个新的损失函数,称为成员损失。具体来说,在最后一层的每个激活分数值fi使用sigmoid函数被归一化为[0,1]。归一化的分数可以被解释为输入图像属于某个类别的概率。理想情况下,给定一个标签y,当y=i时,f(x)应该为1,否则为0。

另一种提高检测性能的方法是基于 "全局负面过滤器"。为某一特定类别提供证据的过滤器被认为是正面过滤器,反之亦然。在预训练的神经网络的情况下,已经表明最终的特征图中只有一小部分是正向激活的。此外,一些过滤器总是被负向激活,表明它们与所有已知的类别无关。通过丢弃全局激活负面过滤器的输入,新样本产生高激活分数的可能性就会降低。为了学习这种针对特定领域任务的过滤器,DTL训练了两个共享权重的平行网络,直到最后一层。第一个网络解决参考数据集的分类任务,而第二个网络结合成员损失解决特定领域的分类任务。如果参考数据集和特定领域的数据集不共享大量的信息,它们就会为对方提供一个负面的过滤器。另外,由于参考数据集是由不同的类组成的,这些学到的过滤器可以被认为是全局性的负面过滤器。最后,平行网络的过滤器与特定领域分类器的置信度分数相结合,用于新颖性检测。

开放集识别的分类-娱乐学习(CROSR)

这个方法是基于与C2AE相同的想法。特别是,CROSR使用编码器网络进行分类,并为重建任务生成一个潜像向量。值得注意的是,用于重建任务的潜伏向量z和用于分类任务的最终层y是不共享的。原因是最后一层的信息损失太大,使其难以区分未知和已知样本。

用于开放集识别的生成和判别特征表示(GDFR)。

与CROSR类似,本研究使用了判别性和生成性模型的组合进行训练。鉴别性方法可能会失去对区分看到的和未看到的样本有用的重要特征。生成模型可以提供补充信息,类似于GT的方法。GDFR采用SSL来改善判别器的特征。共享网络是,.通过预测应用于输入的几何变换,.同时执行分类和SSL任务.此外,我们使用生成模型,如AE,为给定的输入x生成一个重建的输出$ \hat(x)$,然后我们将输入-重建对(x,$ \hat(x)$)的集合传递给判别器网络,执行分类和SSL任务。对于未见过的样本,$ hat(x)$和x之间的差异有助于判别器网络检测它们。图21说明了这种技术。

用于开放集识别的条件高斯分布学习(CGDL)

这项研究的主要思想与CROSR非常相似。然而,CGDL使用了一个基于变异编码和解码的随机梯形网络。在训练期间,样本被传递给编码器,编码器估计每一层的μ和σ。它们的平均值和方差值可以作为相应解码层的钳子。编码器顶层的最终嵌入z被用于联合分类任务和解码过程。编码器最后一层的分布被迫类似于不同的多变量高斯$ p^k_θ(z) = N(z;µ_k,I) $。其中k是已知类的索引,µk是由全连接层得到的,它将输入的标签的一次编码映射到潜空间。解码器的每一层都是一个高斯概率分布,其均值和方差的先验分布由编码器的相应统计层添加。

一种用于开放集识别的混合模型

在我们的方法中,分类网络是与基于流动的生成模型结合起来训练的。像素级的生成模型对于不可见的样本或几十个样本可能不会产生判别结果,而且它们对于语义上不相关的噪声也不健全。为了解决这个问题,我们在特征表征空间而不是像素级空间中应用基于流的模型(见图23)。使用基于流的模型的原因是其易于使用和全面的理论能力。学习损失,即简单的交叉熵损失和负对数可能性的组合,被用来训练基于流量的模型。在测试时,对每个输入的似然性应用一个阈值,如果阈值成立,分类器的输出被分配为类内标签。

学习具有可识别相互点的开放集网络(RPL)

与Mem-AE类似,该方法使用原型特征的概念。与softmax和OpenMax相比,RPL有助于模型更好地调和不同类别的边界,并降低风险系数。RPL降低了风险系数。最初,随机选择一个互换点。互惠点的位置和分类器网络的权重被调整,以最小化分类损失。这允许网络将每个类特征放在靠近特定互换点的地方,这样至少有一组点被用来获得期望的类边界。为了减少风险因素,每个类的样本都被强迫在训练过程中学习到的互点上有一个余量。

基于距离的开放集识别的损失(CAC)。

这种方法的思路与RPL和GOAD相似。CAC为每个类定义了一个维度为N的锚向量--类的数量。在训练过程中,每个训练样本的logit得分相对于真实类的锚向量被置于一个紧凑的球中,并且与其他类的锚有很大的距离,CAC可以被描述为一个多类DSVDD。

使用元学习的数字射击开放集识别(PEELER)。

在我们的方法中,我们将元学习的理念与开放集识别相结合。元学习是学习一般特征的过程,这些特征可以很容易地适用于未见过的任务。元学习也被称为 "学习学习"。当数据量小的时候,元学习是很有用的,因为它能够在几个镜头的设置下工作。在元迭代i中,元模型h被初始化为前一个元迭代中生成的模型。假设$ (S^s_i, T^s_i)^{N^s}_{i=1}$是一个具有Ns个训练问题的元学习数据集,则进行两个步骤。首先。生成训练集$ S^s_i $的最优模型的估计值h。然后,测试集$ T^s_i $被用来寻找具有适当损失函数L的模型。

 

为开放集识别学习占位符(PROSER)。

在这种方法中,我们试图学习一个能在目标类和非目标类之间的分类器。一个假的分类器被添加到模型的softmax层,有一个共享的特征提取器。然后强迫它对正确分类的样本有第二个最大值。当分类器遇到新的输入时,假分类器会产生一个高值,因为所有已知的类别都是非目标。虚拟分类器可以被看作是一个依赖实例的阈值,它能很好地适应所有已知的类别。

反事实的零投篮和公开集的视觉识别

这种方法试图以反事实的方式产生反常的样本。正如本文所提到的,大多数生成方法,如G-OpenMax,并不能产生理想的虚假样本,这些样本与未见过的样本的实际分布并不相似。为此,我们使用β-VAE使样本属性变量Z独立于类属性变量Y。β-VAE的损失函数类似于简单的VAE,但KL项是由系数β诱导的,这在学习分离的样本属性Z方面已被证明非常有效。为了分离Y和Z,所提出的方法通过改变变量Y来创建反事实样本,使其与给定输入x的距离很大,尽管改变变量Z产生的样本。为了忠实地创建反事实样本,我们对判别器D(X,Y)使用Wasserstein GAN损失,它验证了生成的反事实图像和指定标签之间的对应关系。最后生成的样本可以用来提高任何OSR问题的性能。

分布范围外的检测

OOD检测的目的是在测试时识别那些不应该被预测为已知类别的样本,因为它们在语义上与训练数据中的类别不同。例如,由于CIFAR-10和CIFAR-100是相互排斥的类别,我们可以在CIFAR-10上训练模型(分布内的数据),然后将CIFAR-100作为分布外的数据集进行评估。在多类设置中,OOD检测的问题与OSR的问题类似,即对已知类别的样本进行准确分类,并检测未知类别。然而,OOD检测包含了更广泛的学习任务(如多标签分类)和解决空间(如无分类的密度估计)。一些方法放宽了OSR的限制,并取得了强大的性能。在本节中,我们介绍了放松OSR的约束并取得高性能的方法。

检测被神经网络错误分类的非分布式实例的基线

在这项研究中,我们创造了 "分布外(OOD)检测 "这一术语,以说明如何评估深度学习的分布外检测器。以前的深度分类器的异常检测往往使用低质量或专有的数据集,而在本研究中,我们重新使用现有的数据集,创建分布外数据集,以方便评估。在这项研究中,我们提出使用最大软概率(MSP)来检测分布外样本。即maxkp(y = k | x).具有大MSP分数的测试样本被检测为分布内(ID)样本,而不是分布外(OOD)样本。我们还表明,p(y | x)模型在检测分布外样本方面是有效的,而p(x)模型并不总是必要的。到目前为止,这个模型作为一个一般的基线,要超越它并不容易;OSR研究建议进一步完善检测的softmax概率。

提高神经网络中分布外图像检测的可靠性(ODIN)

在这项工作中,采用了一种叫做温度缩放的技术。温度缩放法已被用于其他领域,如知识提取,但这项工作的主要创新之处在于显示该技术在OOD领域的实用性。在温度缩放中,softmax分数的计算如公式59所示;OOD样本在测试时根据最大类概率的阈值进行检测。这种简单的方法,再加上添加受控的小噪音,显示出比基线方法MSP有明显的改善。ODIN进一步向输入添加了一个单步梯度,其方向是增加最大得分,对类内样本有更大的影响,使其对OD样本有更大的余地。

检测非分布式样本和敌意攻击的简单综合框架

这种方法受到线性判别分析(LDA)思想的启发,它认为P(X = x | Y = y)是一个多元高斯分布。为了使P(Y = y | X = x)接近softmax形式,我们假设第一层的特征空间遵循高斯分布我们假设第一层的特征空间遵循高斯分布。然后,我们简单地从每个类的特征中估计出均值和方差的向量,并对其进行多变量高斯拟合。为了检查我们假设的有效性,我们在测试时使用图像的Mahalanobis距离而不是softmax函数进行分类。

用先验网络估计预测的不确定性(DPN)。

这种方法讨论了三种不同的不确定性来源。(1)数据不确定性,(2)分布不确定性,和(3)模型不确定性。讨论了将不确定性分解为这些术语的重要性。例如,模型的不确定性可能是因为模型缺乏很好地近似给定分布的能力而产生。另一方面,数据的不确定性可能是由于类似的类别在本质上是相交的。例如,对不同类型的狗进行分类会比用完全独立的类别解决分类问题有更多的数据不确定性。分布式不确定性与AD、ND、OSR和OOD的检测问题有关。

在训练过程中,预计迪里希特先验网络(DPN)会在整个OOD样本单纯区产生一个平坦分布。这表明从x到y的映射有很大的不确定性。一些非分布数据被用来最小化KL距离和Dir(µ |α)的平坦Dirichlet分布。类内样本使Dir(µ |α)与尖锐稀疏的Dirichlet分布之间的KL分歧最小。客观的Dirichlet分布是在训练过程中通过预设参数得到的。在测试时间,各种标准,如最大概率、最后一层的熵和分布的不确定性,如公式65,都用于OOD检测。

用于检测非分布式样本的置信度校准分类器

这种方法试图使OOD样本的置信度分数的熵最大化。此外,OOD样本是通过联合训练GAN和分类器产生的。如公式66所示,第一项解决了类内样本的分类任务,第二项使用KL发散来使生成的OOD样本的置信度分布均匀。其余的项在类内样本上训练GAN;注意GAN被迫产生高质量的OOD样本,当传递给分类器时,会产生高不确定性。因此,生成的样本位于类内分布和离群分布之间的边界。我们在本文中还表明,利用边界上的类内样本可以显著提高其可靠性校准。

通过异常点暴露(OE)进行深度异常检测

在这个方法中,引入了Outlier Exposure(OE),并在各种实验中测试了它的有用性。Outlier Exposure损失,当应用于分类器时,鼓励模型对异常值输出一个统一的softmax分布。一般来说,Outlier Exposure的目标函数如下。

为了创建$ D^{OE}_{out} $,我们需要搜刮、策划或下载不同于训练数据的数据。来自$ D^{OE}_{out} $的样本是从现有的可用数据集中收集的,这些数据可能与特定任务的目标函数没有直接关系。然而,它包含了广泛的变化,这可以大大改善性能。

自我监督学习可用于提高模型的稳健性和不确定性

在这项工作中,我们研究了结合SSL方法训练监督学习任务的好处,以提高分类器对简单分布错位和OOD检测任务的稳健性。为此,我们在简单的监督分类中加入了辅助的旋转预测。我们测量了我们的方法对简单腐败的鲁棒性,如高斯噪声、射击噪声、模糊、缩放和雾化。结果证实,虽然辅助SSL任务并没有提高分类的准确性,但它确实大大改善了模型的鲁棒性和检测能力。此外,以对抗性强的方式训练总损失函数,可以提高鲁棒性的准确性。最后,我们在ND环境下使用旋转预测和更简单的水平和垂直运动预测来测试该方法,这与GT和GOAD相似,但更简单。我们还在多类分类设置中测试了该方法,发现一个辅助的自我监督学习目标改善了最大软性概率检测器。此外,我们试图在背景和异常值的样本上实现置信层的均匀分布;正如在Outlier Exposure中,我们从其他可获得的数据集中选择异常值。

通过最大分类器差异进行无监督的分布外检测

该方法是基于一个令人惊讶的事实,即两个用不同的随机初始化训练的分类器在每个信任层中对未见过的测试时间样本的行为是不同的。基于这一事实,在本研究中,看到的。我们试图增加未见过的样本的差异性,减少见过的样本的差异性。差异的损失是第一个分类器最后一层的熵和第二个分类器的熵之间的差异。这使得分类器对一个类别内的输入具有相同的置信度分数,但对其他输入具有较大的差异。图26显示了整体架构。26显示了整体架构。

首先,我们在类内样本上训练这两个分类器,以产生相同的置信度分数。接下来,我们使用一个同时包含OD和类内数据的无标签数据集,以最大限度地缩小离群值的差异,同时保持类内值的一致性.

为什么ReLU网络能提供远离训练数据的可靠预测。

这种方法证明了ReLU网络产生的是一个片状仿射函数。因此,它可以用多角形Q(x)来写成f (x) =Vlx+al

nl和L分别是第l层的隐藏单元数和总层数。

对于α→∞,该方程变成了1。这意味着ReLU网络有无限多的输入,可以产生高置信度的预测。请注意,由于输入的领域受到限制,不可能获得任意的高置信度预测。

深度生成模型知道什么是他们不知道的?

在本文中,我们使用似然比来缓解生成式模型中的OOD检测问题。其关键思想是对背景和前景信息分别建模。直观地说,如果语义上不相关的信息被添加到输入分布中,背景信息被认为比前景信息危害小。因此,两个自回归模型是在有噪声的原始输入分布上训练的,它们的似然比定义为公式75。

在测试过程中,对似然比得分采用了阈值法。

分布外检测的似然比

在本文中,我们采用似然比来缓解生成式模型中的OOD检测问题。其关键思想是对背景和前景信息分别建模。直观地说,我们假设当语义上不相关的信息被添加到输入分布中时,背景信息比前景信息危害小。

广义的ODIN

作为ODIN的扩展,我们提出了一个学习温度缩放的专门网络和选择扰动大小的策略:G-ODIN是一个明确的二元领域变量d∈{din.pin},代表输入x是否是inlier(即x∼pin),dout}被定义。后验分布可以分解为p(y | din, x) = p(y,din|x) p(din|x)。请注意,在这个方程中,给离群者分配过度自信分数的原因似乎更清楚,因为p(y | din,x)的值更大,因为p(y,din | x)和p(din | x)的值更小。因此,我们对它们进行分解,并利用共享特征提取器网络的不同头部,将它们分别估计为p(y | din,x)和p(din | x)的hi(x)和g(x)。这样的结构被称为红利/分利,第i类的logit fi(x)可以写成hi(x) g(x)。所需的损失函数是简单的交叉熵,就像前面的方法一样。请注意,损失可以通过增加hi(x)或减少g(x)来实现最小化。例如,如果数据不在分布中的密集区域,hi(x)可能会很小。因此,g(x)必须小,以使目标函数最小。在其他情况下,建议g(x)要大。因此,它近似于上述的分布p(y | din,x)和p(din | x)的作用。在测试时,使用maxi hi(x)或g(x)。图27给出了该方法的概述。

用于异常点感知分类的背景数据重新取样。

如前所述,对于AD、ND、OSR和OOD检测,一些方法使用背景或离群数据集来提高性能。然而,辅助数据集的大小对于避免不同类型的偏差很重要。在这项工作中,我们提出了一种重采样技术,从离群数据集中选择最佳数量的训练样本,使边界上的样本在优化任务中发挥更大的影响作用。这项工作首先对离群点暴露方法提供了一个有趣的概率解释。损失函数可以写成公式78,其中LclsLuni分别在公式76和77中显示。

用基于似然的生成模型检测输入的复杂性和分布之外的情况。

在本文中,我们进一步研究了生成模型为OOD样本分配高似然值的问题。特别是,我们发现OOD样本的复杂性与似然值之间有很大的联系。输入越简单,似然值可能就越高。这一现象在图28中得到了说明。然而,支持这一说法的另一个实验被设计为从随机噪声开始,每一步都应用平均平均池。为了保持维度,在平均池化之后进行升尺度。令人惊讶的是,应用更多平均池的简单图像取得了更高的可能性。受此启发,该工作提出通过考虑输入的复杂性和可能性值来检测OOD样本。由于计算输入的复杂性有困难,在本文中我们改用无损压缩算法来计算上界。给定一组以相同比特深度编码的输入x,其压缩版本的归一化大小L(x)(每维比特)被用作复杂性的衡量标准。最后,OOD得分被定义为

 

基于能量的分布外检测

这项工作提出使用从logit输出中得到的能量分数进行OOD检测,并表明它们优于softmax分数。基于能量的模型将每个输入x映射到一个称为能量的确定点。一组能量值E(x, y)可以通过吉布斯分布转化为密度函数p(x)。

可能的遗憾。变异自动编码器的分布外检测得分

以前的工作表明,VAE可以完全重建OOD样本,这使得它难以检测OOD样本。与PixelCNN或Glow相比,VAE在不同数据集上的平均可测试性的范围要窄得多,这表明VAE更难区分OOD样本和inlier样本。其原因可能是由于对输入分布进行建模的方式不同。自回归和基于流量的方法在像素级对输入进行建模,但由于VAE的瓶颈结构,该模型忽略了一些信息。

为了解决这个问题,人们提出了一个叫做似然遗憾的标准。它衡量的是为使训练数据集的平均可能性最大化而训练的模型,例如简单的VAE,与使单一输入图像的可能性最大化的模型之间的差异。后者被称为每个样本的理想模型。直观地说,训练模型和理想模型之间的似然性差异可能不大。然而,对于OOD输入来说,情况并非如此。为了训练一个简单的VAE,假设进行以下优化

通过分布和功能层次理解深度可逆网络的异常检测

在这项工作中,我们研究了基于流动的生成模型的OOD检测问题。我们注意到,平滑的局部斑块等局部特征可能主导了可能性。因此,较平滑的数据集,如SVHN,比不太平滑的数据集,如CIFAR-10,取得更高的似然性,无论训练数据集如何。另一个令人兴奋的实验表明,在使用似然值检测OOD样本时,全连接网络比卷积辉网络表现更好。这也支持了连续性和似然值等局部统计数据之间存在的关系;图30显示了基于一个像素值和其3×3邻居的平均值之间的差异计算的各种数据集局部统计数据的相似性。

我们看到伪似然和似然的精确值之间有很强的Spearman's相关性。为了处理这个问题,我们采用了以下三个步骤

-在常见的图像分布上训练生成网络,如8000万张微小的图像

-用从分布中提取的图像训练另一个生成网络(例如,CIFAR-10)。

-使用似然比进行OOD检测

自监督学习用于可泛化的分布外检测

在这项工作中,我们使用了一种自我监测的学习方法,利用来自未标记的离群点数据集的信息来提高分布内分类器的OOD检测效用。为此,首先用类内训练样本训练分类器,直到达到预期的性能。然后,在最后一层增加一个额外的输出(一组k个拒绝类)。每个训练批次包括ID数据和一些离群的样本。使用的损失函数如下

SSD。自我监督的离群点检测的综合框架

这项研究的思路与GDFR非常相似:不需要对类中的样本进行标注,因为SSL方法是内置的。这与前面提到的一些需要解决分类任务的方法不同。因此,SSD可以灵活地应用于各种场合,包括ND、OSR和OOD检测。其主要思想是采用对比学习来学习有语义的特征。在表征学习之后,我们应用k-means聚类法,用平均值和协方差(μm,Σm)来估计类中心。然后,对于每个测试时间样本,我们使用以下与最近的类重心的Mahalanobis距离作为OOD检测得分。

MOOD:多级失调检测

在这项研究中,我们首先研究了OOD检测的计算效率方面。直观地说,一些OOD样本可以只用低级别的统计数据来检测,而不需要复杂的建模。为此,我们训练了几个中间分类器,并在训练好的网络的不同深度上运行,如图31所示。找到所需的现有深度需要对输入的复杂性进行近似计算。为了处理这个问题,使用了用于编码压缩图像L(x)的比特数。因此,出口深度I(x)是根据样本所属的复杂度范围来确定的。

MOS:为大的语义空间实现分布外检测的规模化

MOS首先揭示了OOD检测的性能会随着分布类数的增加而明显下降。例如,分析表明,随着ImageNet1k中类的数量从50个增加到1000个,典型基线的平均假阳性率(95%真阳性率)从17.34%增加到76.94%。为了克服这一挑战,MOS的一个关键想法是将庞大的语义空间分解为具有类似概念的较小的组。这使我们能够简化已知和未知数据之间的决策界限。具体来说,MOS将C类的总数分为K组G1, G2, ...和GK。分组是根据标签空间的分类法(如果已知的话),通过应用从预训练网络的最后一层提取的特征进行k-means,或者通过随机分组。然后,每个组Gk的标准每组softmax定义如下。

多标签分类网络能否知道它们不知道的东西?

在这项研究中,我们研究了OOD检测器在多标签分类设置中的能力。在多标签分类设置中,每个输入样本可能包含一个以上的相应标签。这使问题变得困难,因为它可能使标签之间的同时分布建模变得困难。在这项工作中,我们提出了JointEnergy准则,作为一种简单有效的方法,通过聚合来自多个标签的每个标签能量得分来估计OOD指标得分。我们还表明,JointEnergy可以在数学上用联合似然来解释。

论梯度对检测野生分布转变的重要性

这项工作提出了一种简单的事后OOD检测方法GradNorm,该方法利用关于权重的梯度向量规范,由softmax输出和均匀概率分布之间的KL发散反向传播。GradNorm对于分布(ID)数据来说通常比OOD数据高。因此,它可以用于OOD检测。具体来说,KL发散的定义如下。

数据集

语义级数据集

以下是可用于检测语义异常的数据集的摘要。语义异常是指像素的变化会导致语义内容的变化的那种异常。数据集如MNIST、Fashion-MNIST、SVHN和COIL-100被认为是玩具数据集。CIFAR-10、CIFAR-100、LSUN和TinyImageNet是硬数据集,在颜色、照明和背景方面有很多变化。最后,花和鸟是细粒度的语义数据集,这使得问题更加困难。

像素级数据集

在这些数据集中,不可见的样本、离群值或异常值与内部值没有语义上的区别。这意味着,原始图像的某些部分是有缺陷的。然而,原始意义仍然可以达到,只是已经有了缺陷。MVec AD, PCB, LaceAD, Retinal-OCT, CAMELYON16, Chest X-Rays, Species, and ImageNet-O.

综合数据集

这些数据集通常使用语义级数据集创建。然而,像素的变化量是可控的,因此,不可见的、新颖的或异常的样本被设计用来测试训练过的模型的不同方面,同时保留语义信息。例如,MNIST-c包含具有各种类型的附加噪声的MNIST样本,如射击噪声和脉冲噪声,它们是在成像过程中可能发生的随机损坏。这些数据集不仅可以用来测试模型的鲁棒性,还可以用来在AD设置中训练模型,而不是新颖性检测或开放集识别。由于在异常检测领域缺乏全面的研究,这些数据集可以说是非常有益的。

有MINIST-C、ImageNet-C和ImageNet-P可供选择ImageNet-C和ImageNet-P。

评估程序

AUC-ROC经常被用作评价指标,但需要一个特定的阈值。相反,FPR@TPR表示FPR相对于TPR的值;AUPR是精确-召回曲线下的面积。这是另一个不需要阈值的指标。

准确率通常用于OSR;F-measure或F-score是精确率和召回率的谐波平均值。F-measure或F-score是精度和召回率的调和平均值。

对未来的挑战

基线评估和OOD检测评估协议

OOD检测的评估协议还有改进的余地。例如,我们在CIFAR-10数据集(如ID)上训练了三个高斯分布的混合物,并针对TinyImagenet(裁剪)、TinyImagenet(调整大小)、LSUN、LSUN(调整大小)和iSUN等OD数据集进行了评估。该模型在像素水平上按通道进行训练;表1显示了不同数据集的检测结果。尽管它很简单,但其结果与SOTA相当。特别是,LSUN的表现更差,因为大多数颜色和纹理都是统一的,没有什么变化和结构。与基于似然法观察到的情况类似,LSUN在CIFAR-10的 "内部",具有相似的平均值,但方差较低,更有可能处于更广泛的分布之下。它还能更好地了解OOD检测基线的性能,在接近分布的数据集和远离分布的数据集上都进行了评估。对于用CIFAR10训练的模型,我们使用CIFAR-100作为接近OOD的数据集。结果显示在表2、3和5中。如图所示,除了使用额外的辅助数据集来执行任务的OE方法外,其他方法都不适合检测接近和远离OOD的样本。此外,使用Mahalanobis距离提高了大多数方法检测远处OOD样本的性能,但降低了近处OOD检测的性能。此外,Mahalanobis距离并不是一个好的选择,因为它可能会由于高斯密度估计不准确而降低检测甚至一些远处OOD样本的性能。此外,调整OOD数据集的大小或裁剪会明显改变其性能,这表明其对低级别的统计数据的依赖。例如,注意表5中的SVHN列。这与最近显示的缺乏Mahalanobis距离的情况一致。解决这个问题的一个办法是应用输入预处理技术,如ODIN,以减少一阶和二阶统计数据在分配OOD分数时的影响。然而,测试过程中额外的前向和后向传递的总和将增加执行速度。此外,对于某些OOD数据集,合集和MCDropout等方法可能略微优于其他方法。尽管如此,仍然需要多次前向传递,这大大增加了运行时间。例如,报告的MC-Dropout比简单的MSP慢40倍。总之,我们建议未来的工作对近场和远场OOD数据集的OOD检测进行评估。

需要对AD进行更多的探索

如前所述,AD和ND在历史上或根本上并不完全相同。在现实世界的应用中,一类非常重要和实用的问题是那些不容易被清理的问题,因此包括各种类型的噪声,如标签噪声和数据噪声。现代核电站、军用航空母舰、空中交通管制和其他高风险系统等复杂而危险的系统就属于这种情况。最近提出的ND方法需要在AD设置中使用所提出的合成数据集进行评估,并需要提出新的解决方案。由于AD检测器的开放性得分通常很高,为了实用,重复性必须很高,误报率必须很低。此外,几乎所有的AD或ND方法都是在一比一的情况下进行评估的。这就形成了一个具有几种分布模式的正常类,但这并不是对真实情况的适当近似。因此,在类似于OSR领域的多类环境中评估AD或ND方法,不接触标签,将对SOTA方法的效用有一个更清晰的认识。

像素数据集的OSR方法

OSR中存在的几乎所有方法都是在语义数据集上评估的。由于这类数据集的类别边界通常相距甚远,鉴别性或生成性方法可以有效地对它们之间的差异进行建模。然而,在许多应用中,如胸部X射线数据集,其变化是微妙的。现有的方法对这类任务可能表现不佳。例如,一个模型可能在14种已知的胸部疾病上被训练。一种新的疾病,如COVID 19,可能作为一种未知的疾病出现。在这种情况下,该模型需要将其作为一种新的疾病来检测,而不是将其归入现有的疾病类别。另外,在许多收集医疗数据集的临床应用中,疾病的图像通常比健康的图像更容易获得。因此,OSR问题需要把疾病作为正常图像来学习,把健康的作为异常输入来检测。

表4显示了简单的MSP基线在MVTecAD数据集上的表现,当几个经常发生的故障被视为正常类。在这种情况下,目标是检测已知的故障并进行分类,同时将罕见的故障区分为需要以不同方式处理的异常值。虽然这是一个常见和实用的工业环境,但基线的表现并不优于随机,这让人对其在安全关键应用中的通用性产生怀疑。最近,有一篇论文显示了在分类器网络的倒数第二层使用之前的高斯分布的有效性,这与之前的一些工作类似,在类分布非常相似的任务中,例如上一节介绍的花卉或鸟类数据集 我们已经显示了使用的有效性 然而,这种设置比之前的设置更实用,也更困难,所以需要做更多的研究。

样本量小

用小规模的样本进行学习总是困难的,但也是可取的。解决这个问题的方法之一是利用元学习算法来学习可推广的特征,这些特征可以很容易地适应使用少数训练样本的AD、ND、OSR或OOD检测。元学习的一个挑战是如何处理训练和适应阶段之间的分布性转变。这可能会导致元学习算法的单一类别。其他方法考虑生成合成的OOD数据集,以改善类内样本的数射分类。虽然元学习与AD、ND、OOD检测和OSR的结合最近受到了极大的关注,但仍有几个重要的方面没有被探索,包括只用少量KUC检测UUC的泛化和元学习算法在单类环境下的收敛。

敌对的顽固性

精心设计的不可察觉的扰动,以欺骗基于深度学习的模型做出错误的预测,被称为对抗性攻击。分类器先前已被证明容易受到对抗性攻击的影响,导致测试期间性能显著下降。重要的是,OOD检测以及OSR、AD和ND都要对对抗性攻击具有鲁棒性。最近对OSR、ND和OOD检测的研究已经调查了对抗性攻击对模型的影响。然而,还需要更多的研究。例如,AD异常点或OSR UUCs在训练过程中是无法访问的,要想通过受攻击的异常点或UUCs实现鲁棒模型并不容易。针对对抗性攻击和新颖性检测的不同防御方法之间的关系也可能揭示出对模型内部机制的一些重要见解。例如,成员攻击试图推断出输入样本在训练过程中是否被使用过。这可以看作是设计了一个新奇性检测器,而没有泛化到UKC样本。有一篇论文还研究了成瘾性攻击检测和新奇性检测器之间的关系。攻击者为实现后门攻击而故意添加的成瘾性例子可以被视为训练数据集中的一种 "离群"。差异性隐私被宣称不仅可以改善离群点和新奇性的检测,而且可以改善ND模型中后门攻击的检测。从一个完全不同的角度来看,对抗性稳健训练可以用来以语义方式提升所学的特征空间。在ARAE和Puzzle-AE中已经采用了这一路径,以提高AE在检测不可见测试时间样本方面的性能。同样的意图也适用于单类学习方法,其中稳健性被证明有利于检测新的样本。这一路径需要进一步调查。例如,尽管在分类任务中存在标准的对抗性攻击,但可感知的攻击可能会进一步提高检测性能,而不需要在AD或ND中使攻击不被感知。

公平和偏见的模式

近年来,关于公平性的研究有了很大的发展。在训练过程中,模型已经被证明对几个敏感变量有偏见。例如,一篇论文显示,对于CelebA数据集上的属性分类任务,一个属性的存在与图像中人的性别相关,这显然是不可取的。上述例子中的性别等属性被称为受保护变量。在OOD检测文献中,最近的工作系统地研究了训练集的伪相关性如何影响OOD检测。结果表明,随着训练集中伪特征和标签之间的相关性增加,OOD检测性能会明显恶化。例如,一个利用水背景和标签水鸟之间的伪相关进行预测的模型。因此,依靠虚假特征的模型可以对具有相同背景(即水)但不同语义标签(如船)的OOD输入产生可靠的预测。在公平和AD或ND之间似乎存在着一个基本的对比。为了公平起见,有一种倾向是建立无偏的模型,其中少数人和多数人样本之间的平等约束是成立的,但是AD模型的目标是给很少发生的事件分配更高的异常分数。为了解决这个问题,我们提出了一个公正意识的AD,同时使用受保护变量的标签作为训练过程的额外监督。从另一个角度来看,它为半监督式异常检测方法(如DSAD)引入了一个非常重要的偏见。假设在一个执法机构中实施DSAD,利用监控摄像头寻找可疑人员。因为在这个过程中,一些训练样本被用作异常样本,所以训练出来的模型可能比其他模型更偏向于检测特殊类型的异常情况。例如,如果在辅助的异常训练数据集中男性多于女性,那么在测试过程中检测异常事件为男性的界限可能比女性的宽松。这也可能发生在分类设置中,如OOD检测和OSR。有一篇论文报告了在胸部X光数据集上训练的分类器在检测胸部疾病时存在几个不相关的保护性变量的不公平偏见。从所说的情况来看,公正性和AD、ND、OSR和OOD的检测对于使用它们的几个重要应用来说似乎是紧密相关的。

多模态数据集

在许多情况下,训练数据集由多模态的训练样本组成。例如,在胸部X射线数据集中,图像标签是通过对放射科医生的处方应用NLP方法自动检测出来的。在这些情况下,不同模式的联合训练有助于模型学习更好的语义特征。然而,因此,该模型需要在不同的模式下具有鲁棒性。例如,在视觉问题回答任务中,我们希望模型不要对输入的文本或图像产生不分布的答案。在这里,我们需要意识到不同模式之间的关联性。为各种模式分别训练AD、ND、OOD检测或OSR模型会保留局部最小值。为了解决这个问题,我们通过检测测试时间的样本调查了VQA模型的性能。然而,更多的问题需要用这种方法进行调查。

可解释的挑战

可解释人工智能(XAI)是最近提出的一种深度网络架构,它被发现发挥了非常重要的作用,特别是在安全关键应用中使用时。对AD、OSR、ND和OOD的检测应该能够解释为什么模型会因为其中的一些关键应用而做出决定。例如,如果一个人被监控摄像头识别为可疑人物,应该有一个很好的理由来解释模型做出的决定。可解释性问题可以用两种不同的方法来定义。首先,必须解释为什么样本是正常的,已知的,或不分布的。第二,要解释为什么样本是不正常的、未知的或不分布的。文献中有各种解释模型决策的方法,如Multi-KD, CutPaste, Grad-cam和Smoothfgrad。然而,这些只是用来解释正常的、看到的或分布中的样本,它们的结果并不像充分的或未看到的或异常的输入那样准确。还有人建议基于VAE的方法可以提供理由。它能检测出输入样本的异常,同时也能准确描述正常样本。然而,它在复杂的训练数据集(如CIFAR-10)中的效果并不好。这表明需要做进一步的调查来缓解这个问题。另一个重要的可解释性问题是在单类分类或ND方法中发现的。在训练过程中,只有一个标签可以访问。因此,利用细粒度标签的可用性的Gradcam或Smoothgrad就不能再使用了。为了解决这个问题,我们提出了一个完全卷积的架构,结合一个叫做接受域上采样的热图上采样算法。从样本的潜伏向量来看,所应用的卷积算子的效果被反转,以找到特定输入样本中的重要区域。然而,可解释的OCC模型在很大程度上仍未被探索,仍需要在这个方向上做进一步研究。

多标签OOD检测和大数据集

多类分类的OOD检测已经被广泛研究,但多标签网络的问题仍在研究之中。这意味着对于每个输入,都有多个必须被识别的真实标签。这就更难了,因为多标签分类任务有更复杂的类别界限,可能会导致输入样本标签的一个子集中出现未见过的行为。多标签数据集的挑战可以在异常分割任务中得到研究。与分类不同,整个图像可以被报告为异常输入,这里需要指定具体的异常部分。目前的方法主要是在小型数据集上进行评估,如CIFAR。事实表明,在CIFAR基准上开发的方法可能无法有效地转化为ImageNet基准,而ImageNet具有很大的语义空间,这突出了在大型真实世界环境中评估OOD检测的必要性。因此,我们建议在基于ImageNet的OOD检测基准上对未来的搜索进行评估,以测试所开发方法的局限性。

数据扩展

在对已知或正常的训练样本进行分类时,不确定性的一个来源可能是缺乏泛化性能。例如,旋转一个鸟的图像并不影响它的内容,它又需要被区分为一个鸟。所提到的一些作品试图通过设计各种SSL目标函数将这种功能嵌入模型中。然而,还有另一种方法,即使用数据扩展。数据扩展是丰富训练数据集的一种常见技术。一些方法使用不同的数据扩展技术来提高泛化的性能。

另一个角度是产生不可见的异常样本,并利用它们来尝试将一个单类学习问题转化为简单的双类分类任务;在OSR设置中,其他论文也遵循同样的想法。这些也可以看作是在训练数据集上下功夫,为进一步的检测任务充实数据集。从上述内容可以看出,在数据上下功夫而不是在模型上下功夫可以取得非常有效的结果,应该在未来各种权衡的意义上进一步探索.

开放世界的认可

在受控的实验室环境中,检测新的、未知的或失传的样品就足够了,但新的类别需要不断检测并添加到实际操作系统的识别能力中。如果考虑到这样一个系统需要最小的停机时间,甚至在学习时,这就变得更加具有挑战性。现有的开放世界的认识需要多几个步骤。也就是说,需要不断地检测新的类别,并且需要更新系统以将这些新的类别纳入多类开放集识别算法中。上述过程带来了各种挑战,从当前开放集识别算法的可扩展性到设计新的学习算法以避免OSR分类器的灾难性遗忘等问题。此外,上述所有的未来工作都可以在开放世界识别问题中再次重新表述。这意味着关于这个问题的一些现有工作需要通过回顾来进一步研究。

OOD检测和OSR中的视觉变形器

视觉变换器(ViTs)最近被提出来作为CNN的替代品,并在物体检测、医学图像分割和视觉跟踪等多种应用中表现出优异的性能。同样,最近有几种方法报道了ViT在OOD检测中的优势,证明了它在检测接近OOD的样本方面的能力。例如,当ViT在CIFAR-10上训练,并在CIFAR-100上测试,分别作为离群点和离群点数据集时,据说它比以前的工作有明显的优势。然而,由于ViT通常在ImageNet-22K等超大数据集上进行预训练,而这些数据集与训练和测试数据集有很大的交集,训练-测试差异的一致性不再成立,问题转化为 "我们从预训练中记住多少"。换句话说,ViT需要在一个与预训练的知识不相交的数据集上进行评估。为了解决这个问题,我们在SVHN和MNIST上评估了ViT-B16,当时随机选择的六个类被认为是正常的,其余的类被认为是异常值或不可见的。我们认为MSP可以检测未知样本,如表6所示,在ImageNet-22K上预训练的ViT-B16不如其他从头训练的基线好。所有的实验都是在接近ODD检测设置的情况下进行评估的,因此支持上述ViT的不足之处。从上述情况来看,未来的研究方向可能是在更加可控的情况下评估ViT,从而使其实际收益更加准确。事实上,最近的Species数据集已经收集了不属于ImageNet-22K任何一类的例子,这是纠正这一问题的第一步。

摘要

在许多应用中,不可能对测试过程中出现的所有类型的类进行建模,而诸如OOD检测、OSR、单类学习(ND)和AD等场景存在的领域已经无处不在。因此,在本文中,我们对现有的技术、数据集、评价标准和未来的挑战进行了全面回顾。更重要的是,我们分析和讨论了这些方法的局限性,并指出了有希望的研究方向。我们希望这将有助于研究界形成一个更广泛的、跨学科的视角。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们