防御メカニズムを公平に評価するデータセットと評価基準とは
3つの要点
✔️ 画像によって敵対的攻撃に対するロバスト性が異なることを発見
✔️ もともとロバストな画像で評価した防御メカニズムは正しい性能とは言えない
✔️ 公平なベンチマークのためのデータセットと、評価基準を提案
Defense-friendly Images in Adversarial Attacks: Dataset and Metrics for Perturbation Difficulty
written by Camilo Pestana, Wei Liu, David Glance, Ajmal Mian
(Submitted on 5 Nov 2020 (v1), last revised 7 Nov 2020 (this version, v2))
Comments: Accepted by WACV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:
研究概要
近年、敵対的攻撃という機械学習モデルの入力データに細工をして、誤った結果を出力させるような攻撃について研究がなされています。この類の研究において、データセットの偏りは、特に防御手法の評価において問題になります。それは評価時に得られた頑健性が、データセットによるものなのか、防御手法によるものなのかを判断できないためです。本論文では、そもそも頑健なデータや防御手法の適用によって精度の回復が起こりやすいデータを特定する方法を提案し、頑健なデータを集めたImageNet-Rというデータセットを提案しました。また、データの頑健性を測る指標として3つの指標を提案しました。これによって、敵対的攻撃および防御アルゴリズムの偏りのないベンチマークを行うことができます。
関連研究
敵対的攻撃とは
敵対的攻撃とは、入力データに細工を行うことによって、モデルの出力を誤らせる攻撃です。本論文では画像データを対象に議論しているので、以降は画像データについて述べます。
画像データに対する敵対的攻撃は、入力する画像に人間が見ても判別できないくらいのノイズを乗せ、モデルの出力を誤らせます。このノイズの求め方が攻撃手法の種類となります。詳しくはこちらの記事をご覧ください。
敵対的攻撃に対する防御手法
敵対的攻撃に対する防御手法は様々なものが提案されています。大きく分けると、
- 敵対的学習
- 頑健なアーキテクチャの探索
- 画像の前処理
の3つが有力であると考えられています。敵対的学習は、ネットワークを学習させる際に、敵対的攻撃によって作られたサンプル(敵対的サンプル)も含めて学習させることで敵対的攻撃に頑健なモデルを作ろうというものです。この手法は非常に効果的ですが、過剰適合が起こりやすいという問題点があるため、その点を解決するための研究が広くなされています。
いずれの防御手法においても、統一された評価基準というものは存在しないため、もともと頑健なデータで評価してしまった場合は本来よりも高い性能が出てしまうことになります。
Defense-friendlyなデータセット
ここでは、もともと敵対的攻撃に頑健なデータセットや、敵対的攻撃に対する防御手法に対して効果的なデータセットの性質について調べます。著者らは、分類しやすいデータを以下の3種類に分類しました。
- Easy Image: 摂動なしで、全モデルの分類結果が同じもの
- ε-robust Images: 防御アルゴリズムなしで摂動を加えてもすべてのモデルが正しく分類したもの
- Defense-friendly: 防御アルゴリズムを用いたときの精度の回復が大きいもの
ここでいう摂動とは、敵対的攻撃を行う際に加えるノイズを指します。加える摂動が大きければ大きいほど強い攻撃となりますが、画像がより変化するので、人間の目で見てわかりやすくなります。
これらのデータセットの例は以下のようなものになります。
ε-robust Imagesは、Easy Imagesに対してPGDと呼ばれる攻撃を行って生成した画像の中から、防御アルゴリズムなしですべてのモデルが正しく分類したものになります。$\epsilon = 0.01$のときに15554枚が正しく分類されたので、これらをロバストなデータセットとして扱います。
データセットのロバスト性の評価基準
ここでは、データ自体が持つロバスト性の評価基準について説明します。著者らはこの評価基準として3つの基準を提案しました。
- Adversarial Robust Dataset (ARD)
- Adversarial Minimum Pertubation (AMP)
- Adversarial Defense-friendly (ADF)
ARDは、摂動εを伴う攻撃とモデルが与えられたときにロバストであるデータセットの割合を表します。AMPは、モデルMに対する特定の攻撃に抵抗できなくなる最小の摂動を表します。この値が大きいほど、防御が簡単であるといえます。ADFは、小さなεの攻撃に対する防御を用いて、データセット内の画像を復元できる割合を示します。ここでいう復元とは、攻撃によって誤った出力をしてしまったデータのうち、防御手法によって正しく分類できるようになったものをいいます。
手持ちのデータセットの中からランダムに選択した画像を用いて、6種類のサブセット(ロバスト画像と非ロバスト画像)を作成しました。これらのデータセットに適用した、ARD、AMP、ADRスコアの結果は以下のようになります。
NRは非ロバスト画像、Rはロバスト画像になります。これを見てわかる通り、ロバスト画像の方が、ARDスコアやADFスコアが高くなっています。
これらのスコアが有効な指標であることはわかりましたが、これらのスコアは計算量が多いため、より効率的に計算できる指標が必要となります。そこで、予測を用いたロバスト、非ロバストの分類を行うモデルを作成することでこの問題を解決します。
予測にあたって、従来のMLモデルと、深層学習モデルで学習した結果は以下のようになりました。
深層学習モデルはCNNを用いて画像の特徴量を抽出し、MLモデルは統計的な特徴量抽出手法のGLCMを用いて抽出しました。新しい手法であるCNNが圧倒的によい精度が出ると思われましたが、最も性能の高いMLモデルでは、グレースケール画像から抽出した統計的特徴量のみを用いて75の精度を達成しました。グレースケール画像には、YCbCrからYチャンネルをしっ擁しています。この結果から、Yチャンネルから抽出したGLCM特徴を使用したモデルは、大部分のケースで画像がロバストであるかどうかを認識できることがわかります。ここで注意してほしい点として、深層学習モデルはRGB画像を用いていますが、MLモデルはグレースケール画像である点です。このため、シンプルな予測モデルの構築という観点からは、Yチャンネルから抽出したGLCM特徴を使用したモデルが適切であるといえます。
まとめ
この論文では、敵対的な攻撃に対して回復力があり、かつ攻撃を受けたモデルの精度をほかの画像よりも容易に回復させる、防御に適した画像の存在を示しました。このような画像が多く含まれるデータセットで評価された防御手法は過剰評価されてしまうため、データセットの堅牢性を評価する指標を提案しました。また、これらの指標の計算量を削減するために、予測を用いてロバストな画像であるか非ロバストな画像であるかを判定する方法を提案しました。
データセット自体がそもそもロバストなものであると、防御手法が過剰評価されてしまうという観点は非常に興味深く、これからは、このような観点も考慮に入れて防御手法の研究が進んでいくと思われます。
この記事に関するカテゴリー