用于时间序列异常检测的变换器。
三个要点
✔️最后,Transformer出现在多变量时间序列异常检测中
✔️包括图在内的深度学习改善了多变量时间序列的表示方法,但仍局限于单一时间点。
✔️Transformer对全球和长期联系的表现力证实了它在双分支结构中比传统SOTA的性能,包括改良的Anomaly-Attention。
Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy
written by Jiehui Xu, Haixu Wu, Jianmin Wang, Mingsheng Long
(Submitted on 6 Oct 2021 (v1), last revised 13 Feb 2022 (this version, v4))
Comments: arXiv
Subjects: Machine Learning (cs.LG)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍。
最后,Transformer出现在多变量时间序列异常检测中。事实上,在本文之前,Transformer被用于GTA (Chen等人,2021),该模型通过图结构学习多个物联网传感器之间的关系,用于模拟时间轴和异常检测的重建标准。附上一个方框图。还做了其他一些介绍,包括TranAD和TiSAT。如果有机会,我们也想介绍这些。
这里提出的Anomaly Transformer是一个为异常检测而修改的自我注意机制。
作为先前文章的重复,这里的重点是无监督学习,因为在现实世界的数据中,当你想进行异常检测时,异常数据是罕见的,并且标记是困难的。在这种情况下,在没有监督数据的情况下,需要建立一个正常/非正常判别标准。经典的方法包括密度估计和聚类方法,但这些方法没有考虑到时间因素,也很难推广到未见过的真实场景。最近的深度学习模型通过利用神经网络的表征学习能力取得了优异的成绩。主要的方法类别涉及通过回归型网络的点状表征学习和通过重建或自回归任务的自我监督学习。正如预期的那样,由于异常数据量小,很难对复杂的时间模式进行鉴别。此外,在每个时间点都要计算重建或预测误差,因此很难全面表示时间背景。
另一类方法是通过明确的关联建模来检测异常情况。向量自回归和状态空间模型就属于这一类。还包括图表。如前所述,GNN已被应用于学习多变量时间序列的动态图。虽然它们的表现能力有所提高,但仍然局限于单一时间点的模型。另一方面,基于部分序列的方法通过计算子序列之间的相似性来检测异常情况。然而,这些方法无法捕捉每个时间点和整个系列之间的详细时间联系。
本文的方法将Transformer应用于时间序列异质性检测的无监督学习;Transformer因其全局表示和统一表示长期联系的能力而被广泛运用。当应用于时间序列时,自我关注该地图表示每个时间点的时间联系。这被命名为系列关联。此外,据观察,由于异常的稀有性和正常模式的主导地位,异常与整个系列建立起强有力的联系更为困难。异常关联应该集中在相邻的时间点上,由于连续性,这些时间点更可能包含类似的异常模式。这种相邻浓度的诱导偏差被称为先验关联。相反,占优势的正常时间点并不局限于相邻的区域,而是可以发现与整个系列有好处的关联。基于这一观察,它试图利用关联分布固有的正态-反态可辨性。这导致了每个时间点的新的异常标准。这是由每个时间点的先前关联和其序列关联之间的距离来量化的,被称为关联差异。如上所述,异常点的关联差异比正常时间点要小,因为异常点的关联可能是邻居集中的。
介绍了用于无监督时间序列异常检测的转化器,并提出了用于联系学习的AnomalyTransformer。为了计算关联差异(Association Discrepancy),自我关注机制被革新为异常关注(Anomaly-Attention)。它包括两个分支结构,分别模拟每个时间点的先验和串行联系。先验联系使用一个可学习的高斯核来呈现每个时间点上相邻浓度的诱导偏差。另一方面,序列联系对应于从原始系列中学习到的自我注意权重。此外,在两个分支之间采用了最小化策略。这放大了正常和异常联结差异的可辨别性,并进一步得出了新的基于联结的标准。
本文的三个贡献是:。
基于对联动差异的关键观察,提出了一个具有异常-注意机制的异常-转化器。这允许同时建立前联系和串行联系的模型,并将联系的差异具体化。
该策略的提出是为了扩大正常和异常联结差异的可辨别性,并进一步得出新的基于联结的检测标准。
异常转化器在三个实际应用的六个基准中提供了SOTA异常检测结果。 广泛的隔离和有洞察力的案例研究。
相关研究
无监督的时间序列异常检测可分为以下几类。
...密度估计方法
LOF(局部离群因子)、COF(连接性离群因子)计算局部密度和连接性,并确定离群值;DAGMM和MPPCACD结合混合高斯模型来估计密度。
...基于聚类的方法
异常得分由到聚类中心的距离获得;SVDD、Deep SVDD从正常值中收集紧凑的聚类表征;THOC融合了分层聚类机制中间层的多尺度时间特征,从多层距离中检测异常情况。
...基于重建的方法
Park等人使用LSTM-VAE模型在LSTM中表示时间模型,在VAE中表示重构;OmniAnomaly进一步扩展,并使用重构概率进行检测;InterFusion将骨干网改装成分层VAE,对序列内和序列间的依赖关系进行建模。GANs也被用于基于重建的建模。
...自回归低音法
通过预测误差进行变量检测,用VARs扩展ARIMA,或用LSTM取代自回归模型。
技术
异常情况-变压器。
异常-注意块和前馈层交替叠加,形成异常-变换器,如图1所示。它有助于从深度多层特征中学习潜在的联系。该公式表示如下。
...异常情况-注意。
由于通常的自我注意机制不能同时模拟先验联系和序列联系,我们提出了一个有两个分支的异常注意机制(Anomaly-Attention)。对于预耦合,根据耦合时间轴距离计算出一个可学习的高斯核。它通过学习一个尺度参数σ来适应不同的时间序列模式,如不同长度的异质片段。系列联结分叉从原始系列中学习联结。它能自适应地找到最有效的联系。这两个保留了每个时间点的时间轴依赖性,这比单个时间点的表示更具有信息量。该方程可表示如下。
...协会的不一致。
将关联差异定义为先验和序列联系之间的对称性KL分歧;它代表两个分布的信息增益。平均值为多层协会差异。
对于异常数据,AssDis比正常数据要小。
最小-最大联动学习
重构损失被用来优化模型。系列联动找到信息量最大的联动。为了放大正常和不正常之间的差异,使用了额外的损失来放大联系的差异。由于预相关的单模性质,差异损失迫使串联也关注非相邻区域。因此,它使异常情况的重建更加困难,而异常情况更容易被识别。损失函数表示为重建损失和联结失配的总和,如下所示。
.最低限度的战略
由于直接将联结差异最大化会大大降低高斯核的尺度参数,使先验联结失去意义,因此采取了最小化策略,如图2所示。具体来说,在最小化阶段,预联接近似于通过预联接从原始系列学到的系列联接。这使预联接能够适应不同的时间模式。
在最大化阶段,预连接被优化,使连接的差异被放大。这确保了更多地关注不接近串行连接的问题。
... 联系基本变体标准
在重建标准中引入归一化的联系差异。这既有利于时间上的表现,也有利于可识别的联系差异。最后的变体得分如下。
实验
使用了以下五个评价数据集,包括其他论文中最常用的数据集。(1)SMD(服务器机器数据集),(2)PSM(集合服务器指标),(3)MSL(火星科学实验室)和SMAP(土壤水分主动被动卫星)。(4)SWaT(安全水处理),(5)NeurIPS-TS(NeurIPS 2021时间序列基准)。
比较的基线模型是基于重建的模型InterFusion、BeatGAN、OmniAnomaly、LSTM-VAE,基于密度估计的模型DAGMM、MPPCACD、LOF,基于聚类的模型ITAD、THOC、Deep-SVDD和自回归模型。基础模型是CL-MPPCA、LSTM和VAR,以及经典方法OC-SVM和IsolationForest。
表1对结果进行了总结。对于这两个数据库,该方法显示了最高的F1分数。
图3显示了ROC曲线。正如预期的那样,反常变压器显示了最好的结果。
NeurIPS-TS是Lai等人提出的一个数据库,包括各种时间和模式的变体。在这里,Anomaly Transformer也显示了最高的F1得分。
表2显示了分割实验的结果:就F1得分而言,基于链接的重建有18.76%的改进,而以链接不匹配作为直接标准的改进更大。使用可学习的先验联系有8.43%的改善,使用最小化策略有7.48%的改善。
模型分析
为了让大家对这个模型的工作原理有一个感性的认识,图5对它进行了形象的描述。
...异常情况标准的可视化
一般来说,基于链接的标准被认为是更有区别性的。 具体来说,基于联系的标准允许对正常部分获得持续较小的数值。这与点和模式的情况形成了鲜明的对比。相反,在前两种情况下,重构标准的抖动曲线会使检测过程混乱并失败。这确保了该标准能够突出异常情况,并为正常和异常点提供明确的数值,使检测更加准确,减少假阳性率。
...链接前的可视化
在最小化优化过程中,先验联动被学习为接近序列联动。 因此,学到的σ可以反映集中在邻近地区的时间序列。 图6显示,σ的变化是为了适应时间序列中不同的数据模式。 特别是,异常现象的先期联系通常比正常时间点的σ要小,这与异常现象的邻域集中的诱导性偏差是一致的。
...优化战略分析
只有在存在重建损失的情况下,异常时间点和正常时间点在与邻近时间点的联系权重方面表现相似,对应的对比值接近1(图3)。 最大限度地提高连接失配率会使串行连接更关注非相邻区域。 然而,为了获得更好的重建,异常点应该保持比正常时间点大得多的相邻关系的权重,对应更大的对比值。 然而,直接最大化导致高斯核优化问题,并没有像预期的那样强烈放大正常和异常时间点之间的差异(SMD:1.15 → 1.27)。 最小化策略优化了先验联结,并对序列联结提供了更强的约束。 因此,与直接最大化相比,最小化策略获得了更多可识别的对比度值(SMD:1.27Æ 2.39),从而提高了性能。
进一步的详细评估结果和数据集描述见本文附录A-L。
摘要
本文研究无监督的时间序列异常检测问题。 与以前的方法不同,它可以通过变形金刚学习更多信息的时间序列联系。 基于对联动差异的观察,这很重要,提出了一个异常转化器。这包括Anomaly-Attention,一个用于具体化联系差异的双分支结构。 采用Minimax策略来进一步放大正常和异常时间点之间的差异。 通过引入链接差异,提出了一个基于链接的标准,将重建的性能与链接差异联系起来。 异常转化器已经在经验研究的数据集上进行了广泛的评估,证实了SOTA的结果。
在未来,该公司打算根据自回归和状态空间模型的经典分析,从理论上研究异常变压器。
与本文相关的类别