赶上最新的AI论文

新的Grad-CAM与集成梯度

可解释.AI

3个要点
✔️一种新的基于Grad-CAM的方法,使用综合梯度。
✔️满足灵敏度定理,这是基于梯度的方法的问题,因为它使用的是梯度的积分。
✔️与Grad-CAM和Grad-CAM++相比,在"可理解性"和"保真度"方面的性能有所提高。

Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep Convolutional Networks via Integrated Gradient-Based Scoring
written by Sam SattarzadehMahesh SudhakarKonstantinos N. PlataniotisJongseong JangYeonjeong JeongHyunwoo Kim
(Submitted on 15 Feb 2021)
Comments: Accepted by ICASSP 2021

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

首先

卷积神经网络(CNN)在特征表示和图像识别方面具有强大的能力,但由于其复杂性,缺乏可解释性,限制了用户对其决策的信心。可解释的人工智能(XAI)是一个试图通过揭示模型估计的基础来获得人工智能模型信任的领域。尤其是解释CNN预测的XAI方法中最著名的是可视化方法(归因法)。它们是"后置"算法中的一种,为训练好的模型解释行为。

一组视觉XAI方法是基于类激活映射(CAM)方法。这些方法包括Grad-CAMGrad-CAM++,用途非常广泛。然而,由于这些方法使用梯度,它们可能会低估模型输出对图像中特征的敏感性(违反敏感性公理)。为了解决这个问题,本研究通过将一种叫做集成梯度的方法纳入Grad-CAM中来解决这个问题。

基于梯度的可视化方法和灵敏度定理。

在基于梯度的可视化方法中,最好能满足灵敏度的公理。敏感度的公理是什么?

对于所有的输入和基线,如果一个特征不一样,估计值也不一样,应该给不同的特征一个非零的归属(梯度)。

为了说明灵敏度的公理,我将解释一个简单的例子。让我们考虑$f(x)=1-{ReLU}(1-x)$。让$f(x)$成为一个只由ReLU组成的简单网络,$x$是输入。从$x=0$到$x=1$,斜率总是1。

然而,当$x>1$时,斜率将始终为零。使用梯度创建热图违反了灵敏度公理,因为即使输入不同,也可能创建相同的热图。Grad-CAM也违反了这个灵敏度公理,因为它是一个基于梯度的方法。

拟议方法(综合梯度)

所提出的方法在计算输出相对于Grad-CAM特征图的梯度时,根据综合梯度的方法逐渐改变输入图像,满足灵敏度定理。

基线是一个黑色的图像。输入图像产生中间图像,根据步数$ m $逐渐接近基线。这些图像被输入到训练好的模型中,计算相对于特定特征图的梯度,并输出。通常情况下,选择特征图作为最后的卷积层。计算出的梯度作为梯度与从输入基线图像中获得的梯度之间的差值,用于缩放目的。最后,可以通过计算每幅图像的Grad-CAM并取平均值来计算综合梯度。

综合梯度的公式为

可表示为其中,$m $是控制生成中间图像的步数,$y^c $是对类$c $的估计,$A_{i j}^{l k} $是层$l $的大小$i \times j$的特征图$k$。

$ \gamma $表示中间图像,其中输入图像根据$ t $线性变化到基线。$\Delta $指的是中间图像计算的梯度和基线之间的差异。

实验结果

本文使用在PASCAL VOC2007数据集上训练的VGG16和ResNet-50进行可视化,Top-1准确率分别为87.18%和87.96%。实验结果汇总于下表。

评价可视化方法的局部性(可理解性)的能基指向游戏和Bounding box,显示出比Grad-CAM和Grad-CAM++更好的结果。同样,表示解释的忠实度的Drop/Increase率也显示出比传统方法更好的结果。

通过一个可视化图像的例子可以看出,所提出的方法能够捕捉到真实值中比较重要的特征。我们从用于ResNet-50模型的PASCALVOC 2007测试集中随机提取了100张图像,并计算了16GB P100-PCle上每张图像的计算时间。GPU来计算每幅图像的计算时间。

因此,Grad-CAM和Grad-CAM++的平均计算时间为11.3 ms,而提出的方法平均需要54.8 ms。

摘要

在本文中我们介绍了作者提出了一种方法,通过计算输入图像和基线之间梯度的积分,来解决基于梯度的可视化方法(如Grad-CAM)低估特征重要性的倾向。与Grad-CAM和Grad-CAM++相比,所提出的方法在"解释的可理解性"和"解释的保真度"方面表现出更好的效果。

我觉得引入综合梯度的方法简单而可靠,准确地解决了基于梯度的方法的问题。此外,由于EBPG和Bbox的评价只是简单地强调了边界框中的特征,所以它们与传统方法没有明显的差异,但评价可视化方法性能的Drop\Increase率,可以更直接地显示模型估计的基础,显示了良好的效果。因此,我认为这种方法有可能成为下一个取代Grad-CAM的标准方法。

由于可视化基本不是一个对计算速度有要求的领域,所以认为计算时间的增加不是问题,但是由于还没有将在这的方法与最近出现的Score-CAM和Ablation CAM进行比较,所以我们很好奇比较它们会得到什么样的结果。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们