保护隐私的时间序列异常检测架构

时间序列 02/09/2021

三个要点
✔️一个保护隐私的架构，在不收集服务器上所有数据的情况下检测异常情况。
✔️它由非常简单的模型组合组成
✔️取决于本地数据的同质性，但边缘处理对检测性能的降级很小

Federated Variational Learning for Anomaly Detection in Multivariate Time Series
written by Kai Zhang, Yushan Jiang, Lee Seversky, Chengtao Xu, Dahai Liu, Houbing Song
(Submitted on 18 Aug 2021)
Comments: Accepted paper in the IEEE 40th International Performance Computing and Communications Conference - IPCCC 2021
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自该文件，要么是参照该文件制作的。

简介

在多变量时间序列异常检测中，有必要同时了解时间上的依赖性和变量之间的依赖性。深度学习方法优于传统的时间序列变异性检测方法，如ARIMA，因为它们能够捕获变量之间的依赖关系。

AI-SCHOLAR还推出了MTAD-GAT、 Stack-VAE和 ScoreGrad。在本文中，我们采取了与这些略有不同的模型架构。然而，最重要的特点是，我们在联邦学习架构上建立时间序列模型，这是隐私保护方法之一。

方法

如图1所示，训练数据包括来自不同实体的传感器和执行器在一定时期内的数据。在训练期间，数据只包含正常值。在测试过程中，通过将训练数据序列的一部分插入到不同的区间来创造离群值。

FedAnomaly的概述

FedAnomaly由两部分组成，如图2所示。这些是集体学习和在线检测。图中未显示的是转换、标准化和固定长度窗口化的预处理步骤。在了解了本地模型中训练数据的模式后，我们汇总了来自边缘设备的梯度并更新Globus模型。在序列的最后一个时间戳，观察值的恢复误差被输出，标准/验证的数据被存储在云中。全局模型的训练持续到标准数据的恢复误差收敛为止。修复误差被阈值选择模块用来选择在线检测的异常阈值。在本文中，标准数据的最大恢复误差被作为阈值。

每个边缘设备的在线检测模块从云端接收训练好的模型和阈值。然后，该实体可以获得新观察的异常结果。

ConvGRU（卷积门控循环单元）。

我们使用ConvGRU，它用卷积代替了GRU的点积（图3）。由于时间序列数据是一维的，因此使用了一维的Conv。多变量的依赖性被捕获为表示学习。

在这里，我们把VAE作为一个生成模型结合起来。标准形式的VAE不是一个顺序模型，因为它只由一个多层感知器组成。因此，我们将ConvGRU连接到VAE，如图4所示。从ConvGRUs的下级系列的最后阶段，提取出隐藏特征值ht。由此计算出对数方差和均值，得到潜变量_zt的分布。反转序列得到恢复的序列x_'t。如前所述，异常检测是在输入序列的最后一个时间戳进行的，所以只有最后一个ConvGRU单元的隐藏状态被发送到解码器。

实验

使用的数据集是SMAP、MSL和SWaT，这些数据集已经在其他许多论文中使用过，并在两种假设下进行了评估：非联盟和联盟的设置。前者使用的优化算法是平均随机梯度下降（ASGD），而后者是普通SGD，有128个ConvGRU单元，损失函数是由MSE和KL发散组成的修复误差。损失函数是由MSE和KL发散组成的恢复误差。

在Federared设置中，默认是本地更新纪元E=1，有三个客户端。每个客户从训练数据中专门抽取非iid（非独立同一分布）的数据。

比较器是IF （隔离森林）、AE、 LSTM-VAE、 DAGMM、 MAD-GAN、 OmniAnomaly和 USAD。结果见表二。结果见表二。ConvGRU-VAE在F1方面给出了最好的结果，在精确度和召回率方面也几乎是最好的结果。

在联邦设置（FedAnomaly）中，由于航天器上遥测通道的极端不均匀性，SMAP和MSL的结果更糟。使用SWaT，几乎没有退化。

模型参数搜索和延迟时间分析

SWaT已经对标签和已知的异常原因进行了进一步分析。

窗口长度搜索

表三显示了对窗口长度的依赖性，其中精度、召回率和F1分别在窗口长度为5、20和10时达到最大。在现实世界的异常检测中，异常现象更有可能发生在相邻的地方，而不是遥远的地方。图5中的左图显示了检测和正确答案之间的延迟；窗口长度大于5时，延迟会更短。

我们得出结论，该模型在窗口10和20的整体异常模式、分段检测和反应速度方面表现良好。

隐藏的可变尺寸搜索

我们调查了检测性能与隐藏层的大小之间的关系。一般来说，隐藏层的数量越少，模型捕捉特征值的相关性和时间依赖性的能力就越小。表四，图五中图和右图显示，隐藏层越多，检测性能越好，延迟越小，方差越小，在综合延迟中检测率越高。

关于联合学习机制的额外实验

在联邦设置中，我检查了本地纪元L和客户数量C之间的依赖关系。

性能分析

在表五中，粗体表示F1，下划线表示精确率，双下划线表示召回率。F1和精确率在L=2时几乎最好，召回率在L=3时几乎最好。随着L的增加，召回率提高，精确率恶化。随着L的增加，召回率提高，精确率恶化；C的趋势较小。

表六总结了延迟情况：两组数字中的第一组是调整后的段数，第二组是平均延迟；L=3对大多数C来说是好的，但在表五中，L=3的精确度较低，往往会产生错误的警报。

对学习曲线的分析

如果我们看一下学习曲线，我们可以看到，随着客户数量的增加，在不增加通信数量的情况下，验证损失是无法达到最小的。就局部历时而言，数值越大，收敛越快。

摘要

在实体层面检测异常情况的能力，如边缘计算机，在无监督学习和隐私保护方面有很大的优势。我们提出的ConvGRU-VAE及其在联盟环境中对FedAnomaly的应用表明，在这样的环境中，它的表现和SOTA一样好甚至更好。

然而，当数据非同质化时，存在性能下降的问题，这是未来研究的一个课题。

(文章作者的声明)

最近提出了几个模型来捕捉多变量时间序列数据中的时间和特征值之间的关系，在SMAP等常见数据集上的比较也得到了类似的F1和其他结果。值得注意的是，一些架构，如图形注意力、堆叠的VAE、基于能量的生成模型，以及现在的ConvGRU-VAE，都有很大的不同，但产生了同样好的结果。看到对本质上所做的事情的相似性与明显的差异进行分析将是有趣的。