情報の削除による敵対的攻撃手法！

adversarial perturbation 2023年01月06日

3つの要点
✔️ DNNモデルの識別を誤らせるようなノイズを元データに付加させるのが従来の敵対的攻撃手法
✔️ 提案手法では、元データの情報を削除することで攻撃を行う
✔️ ほかの攻撃と比較して現在の防御手法に強いことを検証

AdvDrop: Adversarial Attack to DNNs by Dropping Information
written by Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, A. K. Qin, Yuan He
(Submitted on 20 Aug 2021)
Comments: ICCV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

DNNモデルの識別を誤らせるような攻撃を敵対的攻撃と言い、従来は識別が誤るようなノイズを元データに付加させることで攻撃を行っていました。本論文では、ノイズを付加させるのではなく、元データの情報を削除することで攻撃を行うというアプローチを提案しています。これは、DNNは人間とは違って抽象的な物体を認識する能力がまだ十分ではないという考えから、人間は識別できるくらいに抽象化したデータはある種の敵対的サンプルであると考えられるという考えからきています。著者らは情報を削除することで生成される敵対的サンプルが、DNNに対してどれくらい影響を及ぼすかを検証しています。

この論文での貢献をまとめると以下の通りです。

画像から情報を削除することで敵対的な画像を生成する手法であるAdvDropを提案
標的型攻撃と非標的型攻撃の両方においてAdvDropの有効性を検証。AdvDropによって生成された敵対的サンプルは、ほかの攻撃と比較して現在の防御手法に強いことを示した
削除された情報とDNNの注意を可視化して、AdvDropが生成した敵対的サンプルを解釈

提案手法

AdvDropは下の図のように、いくつかの部分から構成された手法です。

DCT（離散コサイン変換）: DCTは、入力画像を空間領域から周波数領域へ変換します。
Quantization（量子化）: 量子化は、敵対的損失をもとに作成された量子化テーブルを適用して情報を落とす、核となる処理です。
IDCT（逆離散コサイン変換）: IDCTは、画像の信号を周波数領域から空間領域に逆変換します。
敵対的損失: 提案手法は、敵対的損失を最小化することにより、量子化テーブルを最適化します。

AdvDropは、上の図のような流れで敵対画像を生成します。まず、入力画像を空間領域から周波数領域にDCTを用いて変換し、次に、変換後の画像の特定の周波数を落とす量子化を行います。その後、画像の周波数信号を空間領域にIDCTを用いて逆変換することで最適化を行います。最適化の際に、量子化テーブルの値を調整します。

敵対的損失

敵対的損失には、クロスエントロピー誤差を用います。

敵対的損失を最小にすることで、量子化テーブルを最適化し、入力画像の情報を選択的に削除して対象モデルを誤作動させます。

量子化

量子化は丸め込みと切り捨ての２つの操作で行われます。前者は元の値を最も近い量子化点に対応させ、後者は量子化される値の範囲を限定します。一般的には、量子化は以下の式で表される操作です。

量子化テーブルは、上の式におけるΔに相当します。量子化テーブルで割り算を実行した後、丸め込みと切り捨てによって情報を削減します。

実験

AdvDropの知覚性能と攻撃性能について評価した後、さまざまな防御手法下におけるAdvDropの性能評価を行います。最後に、AdvDropによって落とされた情報を、モデルの注意と合わせて分析します。

知覚性能

量子化テーブルの制約条件を大きくすると、下の図に示すように、細部の情報が徐々に消えていくことがわかります。

次に、AdvDropによって生成された敵対的サンプルについて、他の攻撃手法と比較します。人間の判断と一致する形で二つの画像がどれだけ似ているかを測る知覚指標として、lpipsを採用しました。lpipsの値は知覚的な損失を表し、低ければ低いほど良い値です。下の図は、y軸にlpipsで算出した知覚的損失、x軸に元画像と比較した結果画像のサイズ変化率を示しています。例えばAdvDrop-100の場合、x軸の値は敵対的画像のサイズが正常画像のサイズに比べて平均36.32%減少していることを表しています。一方PGDでは、AdvDropとは逆に、生成される敵対的画像のサイズが元の画像よりも大きくなっています。したがって、PGDの場合、x軸の値はサイズの比率がどれだけ増加したかを表しています。この図から分かるように、いずれの設定でも、PGDに比べて相対的なサイズの比の変化は大きいものの、AdvDropで生成した敵対画像はPGDに比べてより元画像と知覚的に一致することがわかります。

攻撃性能の評価

次に、AdvDropの性能を標的型と非標的型の両方で評価します。量子化テーブルの制約条件を３種類用意し、それぞれに対して評価しました。その結果が下の表になります。

この表が示すように、制約条件εを緩和することで、AdvDropの成功率は標的型、非標的型のいずれにおいても向上しています。εが１００のときは、ほぼ１００％の成功率を達成することができています。

また、標的型設定の時は、非標的型設定の時よりも攻撃を成功させるために多くのステップを必要とすることが下の図からわかります。

防御手法下におけるAdvDrop

ここでは、さまざまな防御手法において、提案するAdvDropの有効性を他の敵対的攻撃と比較して評価します。ここではまず、PGD ,BIM ,C &W ,FGSM ,DeepFoolなどの敵対的攻撃により、敵対的サンプルを生成します。次にこれらのサンプルに対して、敵対的学習やJPEG圧縮などの異なる防御方法をテストし、防御下でのこれらの攻撃の強さを評価します。この結果は以下の表のようになりました。