使用自监督学习和自适应记忆捕捉隐藏习惯的多变量时间序列异常检测
三个要点
✔️ 应用自我监督学习和自适应记忆融合来补偿正常时间序列数据的多样性和训练数据的有限信息。
✔️ 该模型速度快,即使在减少重量的情况下也没有什么性能下降。
✔️ 深入了解数据(信号)的行为对于提高模型的准确性非常重要。
Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection
written by Yuxin Zhang, Jindong Wang, Yiqiang Chen, Han Yu, Tao Qin
(Submitted on 3 Jan 2022)
Comments: IEEE.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。
简介
在我前段时间介绍的一篇论文中,构建了一个模型来匹配多变量时间序列数据中异质模式的特征。本文的主要观点是一样的。然而,我们对这些模式进行了更详细的观察,并建立了一个适应性模型。请将这个模型与前一个模型进行比较。
作为一个背景,异常检测数据集的异常数据很少,很多研究都是在无监督学习方面进行的。 自动编码器是一种强大的方法,并学会将修复误差降到最低。衍生的模型包括LSTM-AE、 卷积AE和 ConvLSTM-AE。
然而,仍有两个主要挑战。
1)缺乏正常数据:缺乏正常数据看起来很奇怪,但我认为这意味着正常数据的范围很广,不可能准备一个包括所有数据的数据集来进行训练。(a)正常,(b)异常,和(c)类似,如图1。
2)特征表示的局限性:当正常数据存在多样性时,如(c),传统方法不能很好地表示它。
本文提出的自监督学习的自适应记忆网络(AMSL)的目的如下。
1)自监督学习和记忆网络分别用于正常数据和特征表示任务。
2)学习全局和局部记忆以增加表达能力,然后使用自适应记忆融合模块将全局和局部记忆合并为最终的表达。
3)我们比较了四个公共数据集的性能。与传统方法相比,我们观察到准确率和F1得分都提高了4%以上。它对噪音的抵抗力也更强。
相关技术
深度学习方法中的无监督异常检测可以分为重建模型和预测模型。
重建模式
重点是减少重建误差。例如,自动编码器通常用于异常检测,通过学习重建给定的输入,而LSTM编码器解码器用于时间序列数据,但不允许有空间关联性。对于时间序列数据,使用LSTM编码器-解码器,但它们不能考虑空间相关性;卷积自动编码器可以捕获二维图像结构,而ConvolutionalLSTM可以捕获空间和时间的相关性。
预测模型
它预测一个或多个连续值,例如,基于RNN的模型根据预测值和实际值之间的误差来检测异常情况。例如,基于RNN的模型根据未来预测和实际值之间的误差检测异常,LSTNet捕捉短期和长期模式,而基于GAN的方法使用U-Net作为发生器来预测下一个时间点,并与实际值进行比较以检测异常。然而,这些方法缺乏一个可靠的机制来表示正常数据的颗粒度。
自我监督的学习
特征表示学习是深度学习的一个重要方面,输入数据的良好表示对其可概括性、可解释性和稳健性至关重要。自我监督学习(SSL)是无监督学习范式之一,它使用数据本身来获得一个良好的表示。具体方法包括图像、自然语言处理和语音识别。在异常检测中,它被用来学习分布内(即正常)样本的特征。
记忆网络
它被用于回答问题,RNN,LSTM使用局部记忆单元来理解长期结构。记忆以一种稳定的方式记录信息,所以我们采用记忆网络,如一次学习、神经机器翻译和异常检测。在异常检测中,我们的目的是通过记录与记忆中的项目相比,正常值的各种模式来区分正常和异常的值。
AMSL的配置
卷积AE(CAE)被用作基础网络,CAE的损失函数为均方误差(MSE),如下式所示。
AMSL由四个要素组成
1)自我监督的学习模块
2) 全局记忆模块
3) 本地存储模块
4) 自适应融合模块
该算法也包括四个步骤。
1) 编码器通过进行六次转换将原始时间序列数据映射到潜在的特征空间。
2)对于自监督学习,一个多类分类器对这些特征表示进行分类,以学习一般化的特征。
3)这些特征还被发送到全局和局部存储网络,以学习共同和单独的特征。
4)一个自适应融合模块将这些特征融合起来,得到一个新的表示,可用于重建。
自我监督的学习
AMSL的自我监督学习模块概括了正常值的特征表示。对于未知的异常情况,可能有许多不同的模式,可用于训练的正常值数据数量有限。为了解决这个问题,自监督学习被用来提高模型的泛化能力。
在数据扩展后,我们假设实例是一致的,并设计原始数据的特征转换,训练模型识别样本转换类型作为辅助任务。具体来说,我们使用了六种信号转换(噪声、反转、包络、比例、反转和平滑)。损失函数是每个转换的交叉熵之和。
自适应内存融合模块
传统的AE受到噪声或未知训练数据的不利影响,并可能持续重建太多的异常输入。 因此,该模型无法学习有代表性的特征。 为了应对这一挑战,我们提出了一个自适应的记忆融合模块,通过记录典型模式来增强模型区分正常和异常数据的能力。
记忆模块
记忆模块由代表编码模式的记忆表示和根据记忆和输入之间的相似性更新记忆的更新部分组成。记忆是一个CxF矩阵M,对于一个输入Z,余弦相似度
从权重wi得到的
加权计算
是该模块的输出。
在训练阶段,记忆矩阵可以用重建损失函数进行更新,它侧重于记录正常特征。 在测试阶段,考虑到正常属性的多种模式,记忆网络输出一个具有所有项目组合的表示。 因此,正常的实例可以被适当地重构。 使用记忆模块检索到的正常模式重建的异常情况是由于较高的重建误差而寻求的。
自适应融合模块
此外,我们提出了一个自适应的记忆融合网络,从所有的扩展中学习共同和特定的表征。 具体来说,我们提出了一个全局记忆模块来学习所有转换中包含的共同表征,以及一个局部记忆模块来学习每个转换的特定扩展表征。 最后,我们提出了一个自适应融合模块,将这两个层次的功能融合到用于重建的最终表示中。 其动机是能够同时捕捉到正常数据的一般模式和对正常数据模式有用的具体信息(即每一种不同的变换),从而使正常数据的特征表示得到细化的改进。
使用共享内存矩阵构建一个全局内存模块。 通过使用编码表示作为查询,全局记忆模块可以在记忆矩阵中记录通用项目。通过共享内存模块,可以得到如下的输出结果
为原始数据和六个转换构建了R个本地存储模块。 每个存储矩阵都记录了相应转换的正常值的特征。 这些输出是由本地存储模块获得的,具体如下
直观地说,在代表一个特定的实例时,共同的和特定的特征并非同等重要。为了自适应地融合这些特征,我们使用了一个前馈层,它将一个特征和一个自由变量r作为输入,并产生一个具有权重α(本地和全局存储器中两个权重x R变换之和)的融合表示。 批量归一化和sigmoid激活函数用于归一化权重并将其值控制在(0,1)范围内。 r是用来增加随机性的。 适应性融合表达可表示为
α是共同(全局)和特定(局部)特征的权重。
解码器将编码器的输出和自适应融合的输出连接起来作为输入,以重建原始输入。重建损失的定义是使解码器输出和原始输入之间的l2距离最小。
为了限制记忆权重w的稀疏性,以避免由于记忆项目的复杂组合而导致的异质性过度重建,我们采用稀疏性损失来最小化w的熵。
将三个损失函数(10)、(11)和(3)与权衡参数λ进行整合,整个AMSL损失函数变为
学习是在端到端的基础上进行的。(算法见论文)
在推理中,设置了一个阈值,并对Err(Xi)的值作出决定。(算法见论文)
评价实验
四个数据库用于基准测试:DSADS是关于日常身体运动的运动传感器数据;PAMAP2是类似的身体运动数据,但使用移动设备;WESAD是可穿戴的压力、情绪和传感器数据;CAP是检测睡眠呼吸暂停的睡眠状态传感器数据。WESAD是可穿戴的压力和情绪传感器数据;CAP是睡眠状态传感器数据,用于检测睡眠呼吸障碍。
表2显示了DSADS和PAMAP2按操作分类为正常或不正常。
所比较的模型是四种传统方法(KPCA、 ABOD、 OCSVM、 HMM)和七种无监督学习方法(CNN-LSTM、 LSTM-AE、 MSCRED、 CovLSTM-COMPOSITE、 BeatGAN、 MNAD。 GDN, UODA)。评价指标是平均拟合率、平均召回率、平均F1得分和准确率。
表3显示了评估的结果。对于所有的数据集,AMSL明显优于其他。特别是,对于最大的数据库CAP,AMSL与第二大数据库OCSVM相比,在F1得分方面有4.90%的大幅提高。对于难度较大的数据库DSADS、PARAM2和CAP来说,随着数据量的增加,改进的程度也会降低。这意味着,当在小数据集上学习一般化表征很困难时,自我监督学习更有效。此外,当类别数量较多而样本数量相对较少时,AMSL的改进幅度较大,这表明AMSL能够更好地处理有限训练数据的多样性。
由于特征提取方法的限制,传统方法的性能随数据集的变化而变化。例如,重建模型对噪声不稳定;MNAD和ConvLSTM原本是视频数据的模型,可能不适合多变量时间序列;BeatGAN对CAP和WESAD表现不佳。
图4中的混淆矩阵显示,对于大多数数据集,误分类的正常数据的比例低于误分类的异常数据的比例,F1得分超过93%。
雕刻实验
我们将AMSL的自我监督学习(SSL)、记忆(Mem)和自适应融合(Ada Mem)模块中的每个模块的效果分离出来。该数据集是PAMAP2。基线是卷积AE(CAE)。自我监督学习模块和记忆模块都显示出改进。这些和进一步的适应性融合的结合显示了进一步的改善。
详细分析
自我监督的学习
自监督学习帮助网络学习正常数据的一般和多样的特征,从而提高模型的泛化能力,区分不可见的正常和异常实例。图3(a)显示了每个自监督数据转换的性能比较分析。这个评估显示,通过联合训练增强的数据,模型的性能是否比训练单个数据更好。排除噪声信号,我们表明,整体性能S是有竞争力的。因此,将所有的转换结合起来,以便进行更多的概括,是有好处的。
自适应融合模块
在图3(b)中,比较了CAE、GMSL、LMSL和AMSL,其中GMSL是一个全局存储网络,LMSL是一个局部存储网络。结果表明,自适应融合比单个全局或局部记忆网络表现得更好。
表5显示了在四个数据集上更详细的比较。在所有情况下,自适应融合都显示出很高的性能。图3(c)显示了自适应权重如何随着训练的进行而变化;数字1-7对应于图3(a)中的变换。
对嘈杂数据的鲁棒性
在现实世界的应用中,多变量时间序列数据的收集很容易被环境或数据收集设备的变化造成的噪音所污染。噪声数据对无监督的异常检测构成了严重的挑战。高斯噪声(μ=0,σ=0.3)以1%和30%之间的比例被注入随机选择的样本中,以评估其对噪声的鲁棒性。 图6比较了UODA、ConvLSTM-Composite和AMSL三种方法的性能。 随着噪声的增加,所有方法的性能都在下降。 其中,AMSL(橙色)明显优于其他AMSL方法。
异常点的比率
一般来说,异常的百分比将大大低于正常水平。 因此,当测试集的异常百分比为1%、5%、10%、15%、20%、25%和30%时,对CAP数据集进行了实验。 图7显示了使用不同方法对异常类的F1得分。 我们比较了OCSVM、ConvLSTM-COMPOSITE、MNAD-R和AMSL四种方法的性能。 可以看出,随着异常点百分比的减少,其他方法的F1得分也明显下降,而AMSL(橙色)保持稳定。 这表明AMSL在异常类中取得了很高的准确性和可重复性,即使在测试集中异常的比例很低的情况下。换句话说,它对数据集中的不平衡问题是稳健的。
案例研究
利用DSADS数据集的三维信号,对正常和异常的几种分类进行了案例研究;AMSL在所有情况下都能正确分类。与MNAD相比,当正常样本与大多数正常样本不同时,UODA会误判,而当异常样本与正常样本非常相似时,UODA会误判。
参数敏感性分析
敏感性分析是基于三个关键参数:时间序列窗口的长度V,记忆矩阵的大小M和编码器最后一层的过滤器大小F。
此外,还对LMSL和GMSL进行了敏感性分析:图9(a-b)显示了窗长敏感性,(c-d)内存大小依赖性,(e-f)滤波器大小敏感性。图9(g-h)显示了损失函数中的λ1和λ2的依赖性,其中最佳值分别为1和0.0002。
阈值µ也是一个重要的参数:根据表6,第99个百分点有可能预测最佳阈值。因此,选择第99个百分点作为异常检测的阈值。
收敛性、时空复杂性
图10(a)显示了有存储模块的重建损失和自我监督损失的收敛情况;AMSL收敛速度快且稳定,可以更有效地应用。
我们还在DSADS数据集上评估了AMSL和其他强基线的推理时间:如图10(b)所示,AMSL除了取得最佳性能外,只需要比其他大多数方法更短的运行时间。
此外,根据表7,在DSADS数据集上的评估,AMSL的参数数量和模型大小都相对小于其他大多数方法。它还通过控制表7中的自监督数据转换R来丢弃表现不佳的转换,以减少模型参数:AMSL(R=6)丢弃表现不佳的 "噪声 "转换,AMSL(R=5)丢弃 "噪声 "和 "比例 "转换,而AMSL(R= 4)抛弃了 "噪音"、"比例 "和 "替换 "的变换。 AMSL(R=3)舍弃了 "噪音"、"比例"、"置换 "和 "反转 "的变换,表明AMSL仍然取得了最高的F1和准确度分数。其他数据集的结论也类似。这使得方法的选择对现实世界的应用更加灵活。
摘要
在本文中,我们提出了一个自监督学习的自适应记忆网络(AMSL),用于多变量时间序列信号的无监督异常检测。 为了提高模型对未见异常情况的泛化能力,我们建议使用自监督学习模块来学习各种正常模式,并使用自适应记忆融合网络来学习全局和局部记忆模块的丰富特征表征。 在四个公共数据集上的实验表明,AMSL在准确性、概括性和稳健性方面明显优于现有方法。
在未来,他们计划将AMSL扩展到其他模式,如图像和视频,用于无监督的异常检测,他们还计划开发更有效的学习算法,并对该方法进行理论分析。
(该方法似乎能详细地捕捉到每个系列的多样性,但似乎没有考虑到系列之间的关联性。它可以与其他论文中的方法结合起来,改进为更强大的算法。
另一方面,我认为模型结构与数据特征的过度拟合可能会导致普适性的丧失,而这正是本文的目标。例如,假设正常/不正常在六种转换中没有变化,并不一定能保证不同系统或应用的一致性。除了评价中使用的物理数据外,看看财务和网络数据的表现也很有意思。
与本文相关的类别