MTAD-GAT使用图形注意力进行多变量时间序列异常检测

时间序列 30/06/2021

三个要点
✔️ 我们正在建立一个新的框架，考虑多变量时间序列数据的特点和使用结果的目的。
✔️ 对于找到变量之间关系的情况，而不是对单变量数据进行批量处理的解决方法的提出，不仅为空间和云计算，而且为许多制造业和医疗行业的飞跃发展铺平了道路。
✔️ 它甚至比SOTA更强大，在过去的几年里出了很多!

Multivariate Time-series Anomaly Detection via Graph Attention Network
written by Hang Zhao, Yujing Wang, Juanyong Duan, Congrui Huang, Defu Cao, Yunhai Tong, Bixiong Xu, Jing Bai, Jie Tong, Qi Zhang
(Submitted on 4 Sep 2020)
Comments: Accepted by ICDM 2020.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code：

首先

所开发的框架被命名为MTAD-GAT，正如本文的标题所示。对于使用深度学习的时间序列预测，我们在之前的AI SCHOLAR文章《深度学习改变未来预测》中介绍了一篇调查论文。我列出了LSTM等元素作为构建模块，并提到深度学习可能提供经典方法无法获得的输出。然而，他在那里并没有深入讨论多变量数据。

已经提出了基于LSTM的编码器和解码器，对正常条件下的恢复概率进行建模[3]，以及使用随机潜变量的多变量时间序列的随机递归网络[4]。然而，没有一篇论文明确地捕捉到多变量之间的相关性，而这篇论文切中了这一点。

技术

MTAD-GAT将多变量时间序列中的每个单变量时间序列视为一个特征值，并试图对每个特征值之间的相关性进行明确建模。另一方面，它还对每个时间序列内的时间依赖性进行建模。

该框架的核心部分是两个图关注层：一个面向特征值的图关注层和一个面向时间的图关注层。以特征值为导向的图形关注层捕捉了多个特征值之间的因果关系。另外面向时间的图形/注意力层在时间轴上捕捉依赖关系。

在将数据输入这些层之前，对时间序列数据进行一维卷积处理以提取高层次的特征值。

关于图式注意，见图式注意网络，图式神经网络适用于不能被网格状结构（如MLPs或CNNs）捕获的对象，但图式注意力网络适用于不能被网格状结构（如MLPs或CNNs）捕获的对象，但图形神经网络通过对每个节点的自我注意力的描述，进一步增加了模型的灵活性。上述两个模型层可以通过结合目标函数同时进行优化。

合并的隐层变量随后被输入到GRU（门控循环单元）。它抓住了时间序列的序列模式。GRU的输出被平行地输入到基于预测的模型和恢复模型。全连接网络被用于基于预测的模型，VAE（变异自动编码器）被用于修复模型。

数据预处理

作为预处理，我们使用最大最小正则化和SR（光谱残差），这是单变量异常检测中的SOTA。

图形注意

图的关注度由以下公式表示，每个节点都是如此。

σ是sigmoid激活函数；L是i附近的节点数。注意力得分α的获得方法如下。

0中的+号意味着串联。

1.以特征值为导向的图形和注意层

在面向特征值的图注意层中，一个节点对应于每个多元变量，输入是以所有时间戳n的时间序列数据的顺序向量给出。该图是用k个变量创建的。

2.面向时间的图形和注意层

在面向时间的图注意层中，时间序列数据被滑动窗口分开，有n个节点，有n个时间戳，从每个图中输出具有多变量数量的向量。

联合优化

损失函数是预测模型和基于恢复的模型的损失函数并同时更新两个模型的参数。

恢复模型损失函数的第一项是负对数似然，第二项是Kullback-Leibler分歧。

模型估计

对于每个时间戳，有两个推理结果。第一个是预测值，第二个是恢复的概率。对于异常检测，我们平衡两个结果，并使用优化后的结果。异常测定的阈值由POT（峰值超过阈值）算法自动确定。推理的得分是用超参数γ计算的，具体如下。

实验

数据集、指标

有三组数据用于比较和评估：两组是NASA收集的航天器数据，SMAP（土壤水分主动无源卫星）和MSL（火星科学实验室探测器）。另一个是TSA（时间序列异常检测系统），由微软自己的时间序列异常检测系统从一个叫Flink的流处理框架中收集。

评价指标是precisio、recall和F1得分。

与SOTA的比较

以下8个SOTA被用来进行比较。都是在2018-2019年发表的多变量异常检测。它们包括基于预测和基于恢复的模型。

全身异常[4]。

我们提出了一个用于多变量时间序列异常检测的概率模型，其中时间依赖性由GRU掌握，然后由VAE投射到一个概率分布中。与正常模式相比，我们认为恢复概率低的模式是异常的。

LSTM-NDT[2]。

我们为LSTM的输出提出了一种无监督的、非参数化的阈值确定算法。

KitNet[13]。

特征值提取、特征值映射和异常检测都是通过自动编码器的集合进行的。

DAGMM[9]。

我们不看时间依赖性，而只关注多变量异常检测。

GAN-Li[10]。

通过用GAN训练判别器，它可以检测到异常情况。

MAD-GAN[11]。

所有的数据都是同时考虑的，以寻找变量之间潜在的相互作用，类似于GAN-Li，几乎是同一个研究小组。

LSTM-VAE[12]。

LSTM和VAE被整合起来，以融合信号并恢复预期分布。在编码过程中，多变量观察变量及其在每个时间步长的时间依赖性被基于LSTM的编码器投射到潜空间。在解码中，多变量输入的预期分布是由潜在的代表值预测的。

针对这些SOTA，MTAD-GAT在所有的数据集上都赢得了优越的F1分数。

按不同的延迟评级

由于这是时间序列数据，因此能够毫不拖延地确定异常情况是很重要的。下图显示，针对OmniAnomaly，F1得分总是迅速增加。

分析

图形注意的影响

我们评估了我们所使用的两个图的每一个的效果。尽管使用了GRU，但面向时间的图-注意的效果的原因是，GRU没有捕捉到的间隔时间点之间的关系，对异常的发生有影响。尽管使用了GRU，但以时间为导向的图形注意的效果的原因被解释为间隔的时间点之间的关系对异常现象的发生的影响，而GRU没有捕捉到这种影响。

耦合优化的影响

从同一张表中，此外，我们还可以检查使用预测性和基于恢复的模型进行联合优化的有效性。

然而，有一些情况是修复基础模型所不能掌握的。例如，图6中的红色区间未被检测到。虽然基于恢复的模型一般都能很好地理解全球分布，但它可能会错过扰乱周期性的突然扰动。

γ的分析

γ是结合基于预测的误差和基于恢复的概率的比率；我们还评估了对γ的依赖性。结果见表1。几乎没有变化。

异常状况诊断

除了检测异常情况，MTAD-GAT还为异常情况的诊断提供了有用的见解。我们使用两个指标来评估准确性，即HitRate@P%和NDCG。

这两个数值都比较高。

案例研究

在某些情况下，它不能被正确检测。下图中的绿色区域被确定为不正常，但它是正常的，因为FLINK_CHECKPOINT_DURATION和CPU发现了一个不正常的峰值。DATA_RECEIVED_ON_FLINK和DATA_SENT_FROM_ONTIMER_FLINK也同时增加，表明输入系统的数据暂时增加。然而，负荷的增加是短暂的，对系统的运行状态来说并不异常。这种需要领域知识和客户反馈的情况需要进一步调查。