Integrated Gradientsを使用した新しいGrad-CAM
3つの要点
✔️ Integrated Gradientsを用いた新しいGrad-CAMベースの手法
✔️ 勾配の積分を使用しているため、勾配ベースの問題点である感度の定理を満たす
✔️ Grad-CAM、Grad-CAM++に対して「理解のしやすさ」「忠実性」において性能の向上
Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep Convolutional Networks via Integrated Gradient-Based Scoring
written by Sam Sattarzadeh, Mahesh Sudhakar, Konstantinos N. Plataniotis, Jongseong Jang, Yeonjeong Jeong, Hyunwoo Kim
(Submitted on 15 Feb 2021)
Comments: Accepted by ICASSP 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
はじめに
畳み込みニューラルネットワーク(CNN)は、特徴表現や画像認識において強力な能力を持っていますが、複雑なため説明可能性が欠けており、ユーザーの意思決定に対する信頼性を制限しています。説明可能なAI(XAI)は、モデルの推定の根拠を明らかにすることでAIモデルに対する信頼を得ようとする分野です。
特にCNNの予測を説明するXAI手法の中で有名なのは、可視化手法(帰属手法)です。これらのアルゴリズムは、学習済みモデルに対してその振る舞いを解釈する「ポストホック」と呼ばれるアルゴリズムの1つです。
視覚的なXAIアプローチの中のグループの一つに、Class Activation Mapping (CAM)法に基づくものがあります。これの手法にはGrad-CAMやGrad-CAM++があり、非常に汎用性が高く広く用いられています。
しかし、これらの手法は勾配を用いるため、画像内の特徴に対するモデルの出力の感度を過小評価してしまう可能性が生じます(感度の公理への違反)。この問題に対処するためにこちらの研究では、Integrated Gradientsと呼ばれる手法をGrad-CAMに組み込むことで解決しています。
勾配ベースの可視化手法と感度の定理
勾配を用いた可視化手法では、感度の公理を満たすことが望ましいとされています。感度の公理とは
1 つの特徴が異なり推定値が異なるすべての入力とベースラインについて、異なる特徴がゼロではない帰属(勾配)を与えられるべき
です。
感度の公理を説明するために簡単な例を説明します。$f(x)=1-\rm{ReLU}(1-x)$を考えてみましょう。$f(x)$がReLUだけで構成されたシンプルなネットワークで$x$が入力です。$ x=0 $から$ x=1 $までは傾きは常に1です。
しかし、$x>1$の時、傾きは常に0になってしまいます。勾配を用いてヒートマップを作成すると、入力が異なっても同じヒートマップを作成してしまう可能性があるため、感度の公理に反することになります。Grad-CAMも勾配による手法ですので、この感度の公理に反することになります。
提案手法(Integrated Gradients)
提案手法はGrad-CAMの特徴マップに関する出力の勾配を計算する際に、入力画像をIntegrated Gradientsの手法に従って、徐々に変化させることで感度の定理を満たします。
ベースラインは黒色の画像です。入力画像はステップ数$ m $に従って、徐々にベースラインに近づく中間画像を生成します。それらの画像を学習済みのモデルに入力し、特定の特徴マップと出力に関する勾配を計算します。通常、特徴マップは最終畳み込み層が選ばれることが多いです。
算出された勾配はスケーリングのために、ベースラインの画像を入力した際に得られる勾配との差として利用します。
最後に各画像ごとにGrad-CAMを計算し平均をとることでIntegrated Gradientsを計算できます。
Integrated Gradientsの数式は
で表せます。ここで$ m $は中間画像を生成数を制御するステップ数、$ y^c $はクラス$ c $の推定値、$ A_{i j}^{l k} $はレイヤー$ l $の$ i \times j $のサイズの特徴マップ$ k $を示しています。
$ \gamma $は中間画像を示しており、$ t $に従って線形に入力画像がベースラインへと変化します。$ \Delta $は中間画像とベースラインで算出した勾配の差を指します。
実験結果
本論文では、PASCAL VOC2007のデータセットで学習したVGG16とResNet-50を可視化の対象としています。top-1 accuracyがそれぞれ87.18 %、87.96 %です。
実験結果は以下の表にまとめられています。
可視化手法のローカライゼーション能力(理解のしやすさ)を評価するEnergy-base pointing gameとBounding boxではGrad-CAMとGrad-CAM++と比較してよい結果示しました。
同様に、説明の忠実度を示すDrop\Increase rateでも従来手法と比較してよい結果を示しています。
可視化した画像の一例では、提案手法が真値のより重要な特徴を捉えていることが分かります。良い結果を示すIntegrated Grad-CAMですが、計算量がGrad-CAMやGrad-CAM++より増大しています。ResNet-50モデルに使用したPASCALVOC 2007テストセットから100個の画像をランダムに抽出し16GB P100-PCle GPUで画像ごとの計算時間を計算しました。
その結果Grad-CAM、Grad-CAM++では平均11.3 msですが、提案手法では平均54.8 msの計算時間が必要でした。
まとめ
この論文では、Grad-CAMなどの勾配ベースの可視化手法が、特徴の重要度を過小評価する傾向に対処するために、入力画像とベースラインの間で勾配の積分を計算することで解消する手法を提案しました。Grad-CAM、Grad-CAM++と比較して「説明の理解のしやすさ」、「説明の忠実度」の2点においてよい結果を示しています。
Integrated Gradientsの導入というシンプルながらも確実性のある手法をとっており、勾配ベースの手法の問題点に的確に対処していると感じました。また、EBPGやBboxではバウンディングボックス内の特徴を強調するだけで評価が向上するため、従来手法との大きな差は見られませんでしたが、よりダイレクトに可視化手法のモデルの推定の根拠を示す性能を評価するDrop\Increase rateでよい結果を示しているため、Grad-CAMに代わる次の標準的な手法になりうるポテンシャルを秘めていると思います。
可視化は計算速度を求められる分野では基本的にないため、計算時間の増加は問題ないと考えていますが、近年登場したScore-CAMやAblation CAMとの比較を行っていないので、比較した際にどのような結果が得られるのか気になりました。
レシピ
AxrossレシピにGrad-CAMを用いた実践レシピが公開されています。
この記事に関するカテゴリー