
描述性逻辑中异构图神经网络全局描述的新方法
三个要点
✔️ 提出一种利用描述逻辑(DL)的类表达式(CE)的新方法,以解决 GNN 整体缺乏解释的问题。
✔️ 根据模型保真度和 GNN 分数,通过波束搜索生成最佳类表示法,以解释 GNN 行为。
✔️ 所提出的方法能够识别虚假关联,提高模型的透明度和可靠性。
Utilizing Description Logics for Global Explanations of Heterogeneous Graph Neural Networks
written by Dominik Köhler, Stefan Heindorf
(Submitted on 21 May 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Logic in Computer Science (cs.LO)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
图神经网络(GNN)被广泛用于图结构数据的节点分类,如知识图、产品图、蛋白质图和引文图。然而,图神经网络预测的可解释性(Explainability)仍然是一个挑战,尤其是缺乏一种 "全局解释方法 "来解释整个模型的行为。
现有的大多数解释方法都试图通过将 GNN 的输出结果可视化为子图(小型局部网络结构)来直观地理解 GNN 的行为。然而,这种方法无法正确解释 GNN 学习到的更高层次的概念模式(例如某些关系的语义作用)。
因此,本文利用描述逻辑学(DL) 中的 "类表达式"(CE),提出了一种对 GNN 进行全局解释的新方法。这使得解释能够考虑到传统基于子图的解释无法处理的复杂规则(如否定、包含关系、数量限制)。
该方法建立了一种算法,可生成多个可解释 GNN 预测结果的候选 CE,并选出最佳 CE。这样就能进行更精确的分析,并提高 GNN 决策过程的透明度。
这项研究可以为澄清全球网络决策的依据提供基础,特别是在 需要人工智能透明度的领域(如医学、金融、法律) 。我个人认为,全球网络在医疗领域的应用前景尤为广阔。在全球网络中分析病人的诊断数据时,如果能够清楚地解释决策所依据的医学知识,将大大有助于赢得医生的信任。
相关研究
GNN 解释方法的分类
GNN 的解释方法大致可分为 "局部解释 "和 "全局解释":
-
本地描述(如 GNNExplainer、PGExplainer)。
- 解释预测某个节点原因的小子图。
- 现有方法主要采用这种方法。
- 例如,在根据文献的引用关系预测其影响力时,一种通过展示少数有影响力的论文来解释的方法。
-
全局描述(如 XGNN、GNNInterpreter)
- 描述带有特定标签的所有节点的综合方法。
- 现有方法将图形模式视为简单的子图,因此无法应用复杂的规则。
- 例如,解释为何将某一领域的研究人员归入某一特定群组的方法,显示总体研究趋势。
使用描述性逻辑(DL)
描述逻辑(DL)是一种用于定义本体(知识表征)的逻辑系统。在本研究中,EL 描述逻辑(DL 的一种)被用来生成解释 GNN 预测的 CE。
传统方法难以将 GNN 的学习规则表示为图形模式,而本研究中使用的 DL 允许将 GNN 的行为描述为更一般的规则。
例如,假设 GNN 预测产品类别为 "高档葡萄酒"。传统的解释只能是 "因为这种酒的价格很高"。但是,如果使用描述性逻辑,就可以做出更详细的逻辑解释:"这种酒产于法国,由特定的葡萄品种酿造,陈酿时间长,在过去有良好的声誉"。
建议方法
本研究的拟议方法包括以下三个步骤
生成类表达式 (CE)
- 使用波束搜索随机生成 CE。
- 将每个 CE 与 GNN 预测进行比较,并酌情评分。
设计计分功能
使用两个评分函数来选择最佳 CE:
- 模型保真度得分(保真度)
- 评估 CE 预测与 GNN 预测之间的一致性。
- GNN 分数
- 评估应用了 CE 的图形的 GNN 输出。
CE 搜索过程如图 2所示,从初始随机 CE 开始,然后通过迭代评分得出最佳解释。
应用全球解释
选出最佳 CE 后,将其用作对 GNN 行为的解释。这增加了 GNN 决策的透明度,并确保了解释的一致性。
实验结果
数据集
- 本研究使用了异构图形数据集 "Hetero-BA-Shapes"。
- 该图包含不同的节点类型和边类型,适用于评估 GNN 的预测准确性和解释有效性。
结果分析
在实验中,使用以下评价指标衡量了所提方法的性能
- 保真
- 评估 GNN 预测与 CE 预测之间的一致性。
- 基于 CE 的方法优于传统的基于图形的方法。
- 解释精度 (EA)
- 衡量所提出的方法是否真正正确地捕捉到了 GNN 的行为。
- GNN 输出得分
- 评估 GNN 对其产生的 CE 的支持程度。
表 2列出了 GNN 分数和保真度的比较,清楚地表明所提议的方法具有很高的保真度。特别是,识别模型中虚假关联(错误关联)的能力被认定为很高。
检测虚假相关性
所提出的方法表明,可以检测出GNN 无意中学习到的"错误关联"(虚假关联)。
例如,表 3比较了移除不同边缘类型时的 GNN 分数,直观地显示了 GNN 对某些关系的过度依赖。
结论
本研究提出了一种利用描述逻辑的 GNN 全局描述方法,可实现以下几点
- 使用 CE 解释 GNN 的行为。
- 这增加了 GNN 决策的透明度,提高了其可信度。
- 改进对虚假相关性的检测。
- 所提出的方法为验证 GNN 预测结果提供了一种新的手段。
- 提高模型的保真度和解释精度
- 实验结果表明,与传统的基于图形模式的解释方法相比,所提出的方法达到了更高的精确度。
未来的工作包括将该方法扩展到更具表现力的 DL(ALCQ)版本,并将其应用于不同的 GNN 架构。
此外,还将在更大的数据集上进行进一步评估,以进一步提高所提方法的实用性。
与本文相关的类别