赶上最新的AI论文

使用图中包含的全部信息进行生成和控制的自监督学习异常检测。

时间序列

三个要点
✔️ 出现了一个异常检测模型,充分利用了图结构中包含的信息。
✔️ 基于GNN编码器/解码器的生成模型,包含对比学习。
✔️ 结合两个模型的异常得分,得到最终的异常得分。

Generative and Contrastive Self-Supervised Learning for Graph Anomaly Detection
written by Yu ZhengMing JinYixin LiuLianhua ChiKhoa T. PhanYi-Ping Phoebe Chen
(Submitted on 23 Aug 2021)
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的

简介

最近,我们目睹了越来越多的领域不断产生复杂的、相互依赖的和连接的数据,以图或网络的形式表示。典型的例子包括社会网络、生物网络、交通网络和金融交易网络。从这些图结构的数据中进行数据挖掘和分析受到了极大的关注,特别是在图异常检测的任务中,其目的是识别与图的大多数有显著不同的模式(如节点、边、子图)。 例如,在金融交易网络中,识别两个账户之间的异常边缘(非法交易)是非常重要的[1]。在社交网络中,检测异常节点(社交机器人)也很重要,因为它们可能会在社交网络上传播谣言[2]。然而,检测图中的异常情况是一项具有挑战性的任务,因为许多图包含复杂的联系(结构)信息和节点属性信息。因此,异常情况可能隐藏在结构空间、属性空间以及两者的组合中。此外,在许多情况下,异常现象的正确解决方案是未知的,这使得许多监督分类方法不适用。这两个挑战促使人们在高效异常检测方面做出越来越多的努力,从浅层深层表征,以纯粹的无监督学习方式进行异常检测。

浅层方法主要集中在对图形的异常量权重的定义和基于这些权重的异常捕获方法的开发上。

对于基于深度学习的方法,在异常检测中,自动编码器经常被用于没有正确数据的纯无监督学习环境中。上下文和结构被编码在潜伏嵌入中,恢复误差被用来计算异常得分。

然而,现有的基于图和自动编码器的方法并没有充分利用上下文信息,尽管它对异常检测很重要。

因此,在本文中,我们提出了一种自我监督的学习方法,如图1所示。在目标节点周围的子图被GNN编码为潜在表征后,生成生成模型和控制模型,并将两者结合起来,产生最终的异质性分数。

现有技术

异常情况检测

虽然传统的统计方法、深度学习和半监督式的异常检测都是处理欧氏空间的目标数据,但欧氏空间以外的图结构的异常检测正越来越受到关注。对于图形异常检测,重要的是知道如何测量异常:在AMEN中,常态被定义为一种测量。在AMEN中,正态性被定义为一种测量方法。 采用矩阵回归方法,并使用Rader方法和Anomalous方法,当残差较大时定义为异常。在图中,已经应用了深度方法。在CoLA中,自监督学习,通过对实例的成对抽样来探索网络数据的局部信息,并使用对比学习来学习节点表征。CoLA只使用自我监督学习来识别异常模式,与自我监督学习相反,在自我监督学习中,异常分数被计算为控制对的预测分数。

自我监督的学习

在计算机视觉和自然语言处理中已经大获成功的自监督学习,已经被扩展到了图域:DGIDeepGraph Infomax)是第一个以嵌入形式对图数据进行无监督学习的对比学习算法。MVGRL从一阶邻居和图形扩散的两个视图中对图形进行对比学习。CG3使用基于图结构和节点间有限标签信息的对比学习;MERIT通过在不同视图和网络间最大化节点嵌入的一致性来增强监督信号;JOAO是一个自学模型,自动学习JOAO是一个自学模型,可以自动学习扩展图。

然而,所有这些算法只代表节点,它们不进行异常检测。

学习表示图形

图表示学习的目标是学习每个节点或整个图的表示,以促进下游的图分析任务;GCN(图卷积网络)在谱域中传达信息,在节点分类中表现良好;GAT(图注意力网络)在信息传递过程中自动学习邻居的权重;GraphSage算法提高了可扩展性;SIGN在不同大小的情况下进行图卷积,以减少图采样的依赖性;ARGA(Adversarial Regularised Graph Autoencoder)使用对抗性学习来调节潜在空间的嵌入,以提高图学习的鲁棒性。GIL利用了欧几里得和双曲几何的优势。

然而,现有的GNN方法在很大程度上侧重于学习通用的图表示,而异常检测仍在探索之中(论文作者)。

方法

SL-GAD由三部分组成,如图2所示:图视图采样、对抗对比自监督学习和图异质性评分。

首先,我们从输入图中选择一个目标节点并使用该节点的上下文信息。具体来说,我们使用不同的扩展生成两个相关的图视图。然后,我们充分利用丰富的模式和子图层面的信息来生成两个自我监督的对象:生成性属性恢复和多视角对比学习。前者受到GAE(Graph Auto-encoder)思想的启发,如果选择的目标节点是异常的,那么原始特征向量和修复向量之间的回归损失的属性是不匹配的。后者是一个对比对象,在嵌入和结构空间中直接比较目标节点和周围环境。总的来说,该模型优化了两个与图形异常检测密切相关的自我监督对象。在推理过程中,根据上述两个对象专门设计了两个评分函数。

建立异常检测的图形视图

之前的工作表明,分离器对的设计是图编码器能够提取丰富的结构和属性信息的关键。大致可以分为两类:生成性和对比性,前者主要预测属性和结构性辅助属性,后者允许在不同的尺度(如节点和图)上进行排序。

在这里,我们提出了两个来自不同尺度/空间的自我监督学习对象,以建立目标节点和其周围环境之间的联系。首先,进行节点级的隔离。这包括使用GAE恢复目标节点的特征向量,并将其与属性空间中的正确答案进行比较。接下来,为了注入丰富的结构信息,我们构建了目标节点和局部子图之间的嵌入,以及结构空间中的混合级对比。通过对多个视图进行抽样调查,在对比度模块中。在分化过程中探索各种半全球信息。

在图2的左边区块中,目标节点从输入图中取样,然后用不同的图扩展对其周围的两个不同视图进行取样。接下来是对周围地区的两个不同的视图进行采样,每个视图都有不同的图形扩展;增加视图的数量超过三个似乎会降低属性。

对于生成的目标,分流器对是原始的和恢复的目标节点。对比目标是由目标节点和两个分流器对组成的两个取样图视图。

目标节点采样

为了主要关注图中的节点级异常检测,我们首先对目标节点进行采样。

图形视图采样

带重启的随机行走(RWR)作为数据扩展应用于图,以固定大小K从目标节点周围的图视图中取样。

图形视图匿名化

采样的图形视图是匿名的。换句话说,特征值被设置为零。这意味着目标节点的原始属性信息不会被用于特征恢复的计算或图形视图的嵌入。信息泄露得到了防止,异常检测完全依赖于上下文信息。

具有属性恢复功能的生成学习

深度自编码器适用于异常检测,但对于图来说,它只能恢复节点的属性信息,所以我们使用基于GNN的编码器/解码器,如

基于GNN的编码器

编码器使用一个嵌入矩阵、一个节点特征矩阵和一个接近矩阵表示如下。欲了解更多信息,请查看该文件。

GNN基础解码器

同样地,解码器表示如下,其中Wdec是训练参数矩阵。

生成图和异常检测

如图2的中心区块所示,我们收集接近信息,并通过以下损失函数对其进行优化,以最小化两个图形视图的原始特征和恢复特征之间的差异(MSE)。

多视角控制的学习

控制模块由三部分组成,如图2的中心块所示。

基于GNN的编码器

使用目标节点和两个相关图形视图作为输入,获得特征向量/矩阵。图形编码器与生成模型中的相同。然而,特征向量的变换如下

读出模块

为了将隐藏层ht与周围的子图进行对比,读出模块产生了两个半全局的表示。(图2中间部分)在本文中,为了简单起见,我们使用了均值集合法。

控制模块

我们生成h、g的正负对P,如下所示

为了对一对元素进行对比,我们设计了一个使用双线性变换的sigmoid函数的判别器,并得到一个对比判别分数,如下所示

带有异常检测的多视图控制图

在图的异常点,周围的环境、属性和拓扑属性应该是不同的。换句话说,(12)应该明显大于(13)。这形成了一个具有詹森-香农分歧的多视角对比对象。当目标节点和周围的环境重合时,这一点就会被最大化。

这两个子图加在一起,就得到了

图形变体计分

在生成模型中,目标节点的属性恢复仅基于本地上下文信息,评分函数基于L2规范距离,如下所示

对比模型将目标节点与周围的节点隔离开来。因此,得分函数如下

上述两个异方差分值函数结合起来,得到最终的图异方差分值函数,其中α和β是可调的平衡因子。

模型优化和算法

用于模型优化的损失函数是(7)和(15)的组合,其结果是

实验

我们使用以下真实世界的数据作为我们的实验数据集。前两名(BlogCatalog、Flickr)是社交网络数据。节点代表用户,边代表两个用户之间的关系。其余的数据是关于引用的(ACMCora、CiteSeer、Pubmed)。节点代表已发表的文章,边代表两篇文章之间的引文关系。

对于基线,使用了AMEN、Radar、ANOMALOUS、 DOMINANT、DGI和CoLA。评估指标是ROC-AUC。子图k的大小为4。其他参数请参考该论文。

结果显示在表3,图3。可以看出,SL-GAD在过去的SOTA中显示出了出色的表现,正如预期的那样。SL-GAD优于其他所有深度模型的事实,更不用说没有深度模型的三个表现力较差的模型了,这表明两种训练方法(生成和控制)的结合是有效的。

引文数据的表现也比其他数据好,这可能与SNS数据由更高的维度组成有关。我们已经固定了子图的大小,但高阶图的有效视图采样是未来的挑战。

每个组件的效率

表4显示了对生成模型、控制模型和异方差计分部分的效果进行单独评估的结果。控制模型的贡献似乎比生成模型的贡献大。也可以看到打分的效果。

参数敏感性

平衡系数

方程式(18)和(19)中的生成和控制模型对平衡因子α和β的依赖性显示在图4中。如上所述,控制模型的贡献似乎很大,但当生成模型被设置为零时,就会退化。

 

评价轮次

图5(a)显示了评估轮R对推理的影响。根据数据集的不同,AUC似乎在80到100之间几乎饱和。

子图大小

图5(b)显示了子图大小的依赖性。看来,规模大不一定好。如果子图太小,它将无法掌握与决策的相关性,如果子图太大,它将吸收不相关的信息。

嵌入尺寸

图5(c)显示了编码器对隐藏层嵌入尺寸的依赖性。在大多数情况下,编码器最多能提高到32左右。除此之外,编码器有轻微退化的趋势,这是由于过度学习造成的。

负比率

图5(d)显示了控制负样本比例的影响。可以看出,效果不是很大。

摘要

我们认为,我们已经开发了一个异常检测的模型,充分利用了图结构中包含的信息。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们