防御メカニズムを公平に評価するデータセットと評価基準とは

adversarial perturbation 2021年07月13日

3つの要点
✔️ 画像によって敵対的攻撃に対するロバスト性が異なることを発見
✔️ もともとロバストな画像で評価した防御メカニズムは正しい性能とは言えない
✔️ 公平なベンチマークのためのデータセットと、評価基準を提案

Defense-friendly Images in Adversarial Attacks: Dataset and Metrics for Perturbation Difficulty
written by Camilo Pestana, Wei Liu, David Glance, Ajmal Mian
(Submitted on 5 Nov 2020 (v1), last revised 7 Nov 2020 (this version, v2))
Comments: Accepted by WACV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code：

研究概要

近年、敵対的攻撃という機械学習モデルの入力データに細工をして、誤った結果を出力させるような攻撃について研究がなされています。この類の研究において、データセットの偏りは、特に防御手法の評価において問題になります。それは評価時に得られた頑健性が、データセットによるものなのか、防御手法によるものなのかを判断できないためです。本論文では、そもそも頑健なデータや防御手法の適用によって精度の回復が起こりやすいデータを特定する方法を提案し、頑健なデータを集めたImageNet-Rというデータセットを提案しました。また、データの頑健性を測る指標として３つの指標を提案しました。これによって、敵対的攻撃および防御アルゴリズムの偏りのないベンチマークを行うことができます。

Defense-friendlyなデータセット

ここでは、もともと敵対的攻撃に頑健なデータセットや、敵対的攻撃に対する防御手法に対して効果的なデータセットの性質について調べます。著者らは、分類しやすいデータを以下の３種類に分類しました。

Easy Image: 摂動なしで、全モデルの分類結果が同じもの
ε-robust Images: 防御アルゴリズムなしで摂動を加えてもすべてのモデルが正しく分類したもの
Defense-friendly: 防御アルゴリズムを用いたときの精度の回復が大きいもの

ここでいう摂動とは、敵対的攻撃を行う際に加えるノイズを指します。加える摂動が大きければ大きいほど強い攻撃となりますが、画像がより変化するので、人間の目で見てわかりやすくなります。

これらのデータセットの例は以下のようなものになります。

ε-robust Imagesは、Easy Imagesに対してPGDと呼ばれる攻撃を行って生成した画像の中から、防御アルゴリズムなしですべてのモデルが正しく分類したものになります。$\epsilon = 0.01$のときに15554枚が正しく分類されたので、これらをロバストなデータセットとして扱います。

データセットのロバスト性の評価基準

ここでは、データ自体が持つロバスト性の評価基準について説明します。著者らはこの評価基準として3つの基準を提案しました。

Adversarial Robust Dataset (ARD)
Adversarial Minimum Pertubation (AMP)
Adversarial Defense-friendly (ADF)

ARDは、摂動εを伴う攻撃とモデルが与えられたときにロバストであるデータセットの割合を表します。AMPは、モデルMに対する特定の攻撃に抵抗できなくなる最小の摂動を表します。この値が大きいほど、防御が簡単であるといえます。ADFは、小さなεの攻撃に対する防御を用いて、データセット内の画像を復元できる割合を示します。ここでいう復元とは、攻撃によって誤った出力をしてしまったデータのうち、防御手法によって正しく分類できるようになったものをいいます。

手持ちのデータセットの中からランダムに選択した画像を用いて、６種類のサブセット（ロバスト画像と非ロバスト画像）を作成しました。これらのデータセットに適用した、ARD、AMP、ADRスコアの結果は以下のようになります。

NRは非ロバスト画像、Rはロバスト画像になります。これを見てわかる通り、ロバスト画像の方が、ARDスコアやADFスコアが高くなっています。

これらのスコアが有効な指標であることはわかりましたが、これらのスコアは計算量が多いため、より効率的に計算できる指標が必要となります。そこで、予測を用いたロバスト、非ロバストの分類を行うモデルを作成することでこの問題を解決します。

予測にあたって、従来のMLモデルと、深層学習モデルで学習した結果は以下のようになりました。

深層学習モデルはCNNを用いて画像の特徴量を抽出し、MLモデルは統計的な特徴量抽出手法のGLCMを用いて抽出しました。新しい手法であるCNNが圧倒的によい精度が出ると思われましたが、最も性能の高いMLモデルでは、グレースケール画像から抽出した統計的特徴量のみを用いて75の精度を達成しました。グレースケール画像には、YCbCrからYチャンネルをしっ擁しています。この結果から、Yチャンネルから抽出したGLCM特徴を使用したモデルは、大部分のケースで画像がロバストであるかどうかを認識できることがわかります。ここで注意してほしい点として、深層学習モデルはＲＧＢ画像を用いていますが、ＭＬモデルはグレースケール画像である点です。このため、シンプルな予測モデルの構築という観点からは、Ｙチャンネルから抽出したＧＬＣＭ特徴を使用したモデルが適切であるといえます。

まとめ

この論文では、敵対的な攻撃に対して回復力があり、かつ攻撃を受けたモデルの精度をほかの画像よりも容易に回復させる、防御に適した画像の存在を示しました。このような画像が多く含まれるデータセットで評価された防御手法は過剰評価されてしまうため、データセットの堅牢性を評価する指標を提案しました。また、これらの指標の計算量を削減するために、予測を用いてロバストな画像であるか非ロバストな画像であるかを判定する方法を提案しました。

データセット自体がそもそもロバストなものであると、防御手法が過剰評価されてしまうという観点は非常に興味深く、これからは、このような観点も考慮に入れて防御手法の研究が進んでいくと思われます。