自己教師あり学習へのバックドア攻撃
3つの要点
✔️ 自己教師あり学習手法に対するバックドア攻撃
✔️ 特定カテゴリに汚染されたデータを注入する標的型攻撃について検証
✔️ MoCo、BYOL、MSFなどのSSL手法に対するバックドア攻撃に成功
Backdoor Attacks on Self-Supervised Learning
written by Aniruddha Saha, Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Hamed Pirsiavash
(Submitted on 21 May 2021 (v1), last revised 9 Jun 2022 (this version, v3))
Comments: CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
大規模なラベルなしデータを用いて視覚表現を学習する自己教師あり学習手法(MoCo、BYOL、MSFなど)は、近年大きな成功を収めています。
しかし、大量のラベルなしデータを学習に用いることは、そのデータが攻撃者によって汚染されていないかを確認することに大きなコストがかかるため、バックドア攻撃に対してより脆弱となる可能性があります。
本記事で紹介する論文では、これまで主に教師あり学習に対して研究されていたバックドア攻撃を、自己教師あり学習に対して実行することに成功した論文について紹介します。
攻撃者の目的
はじめに、自己教師あり学習(SSL)モデルに対する攻撃を行う場合における、攻撃者の設定について考えます。
ここで、攻撃者の目的は、SSLモデルにバックドアを挿入し、そのモデルを下流タスク分類器のバックボーンとして使用した際、特定のパッチ(トリガー)が含まれる入力に対して分類器に誤った予測を行わせることです。また、特定のパッチが含まれない入力に対しては、クリーンな分類器と同等の性能を発揮できるようにすることで、バックドアの検出を難しくさせることが可能です。
SSLモデルはアノテーション無しで教師あり学習とほぼ同等の特徴を学習することができ、最近ではInstagram-1BやFlickr画像データセットなど、Web上の公開画像をダウンロードして作成された大規模データセットを用いることも可能になっています。
こうした場合には、Web上から得られた画像は精査されることなくSSLに用いられるため、攻撃者が汚染されたデータを混入させることは難しくありません。
攻撃者の知識・能力
攻撃者はWeb上に汚染されたデータを公開することで、SSLモデル学習のためにWeb上の画像を自動で収集した際、その一部に汚染されたデータを混入させることができます。
このとき攻撃者は、SSLモデルの学習を制御することはできず、モデルのアーキテクチャ・Optimizer・ハイパーパラメータに関する情報は有しません。
標的型バックドア攻撃
SSLモデルに対してバックドア攻撃を行う方法は以下の通りです。
- 汚染された画像を生成する:特定のカテゴリの画像にトリガー(画像パッチ)をペーストし、これを学習セットに注入します。このとき、汚染画像が含まれたカテゴリがターゲットカテゴリとなります。
- 自己教師あり事前学習:SSLアルゴリズムにより、汚染されたデータセットで視覚的特徴が学習されます。
- 教師ありタスクへの転移学習:SSLモデルで学習された特徴は、下流の教師ありタスクで線形分類器を学習するために用いられます。
- テスト時:攻撃が成功した場合、下流タスクの分類器はクリーンな画像に対しては良好な性能を示す一方、トリガーが含まれた画像についてはターゲットカテゴリと誤って予測してしまいます。
実験設定
・データセット
SSLモデルに対するバックドア攻撃の実験で用いるデータセットは以下の通りです。
- ImageNet-100:ImageNetのランダムな100クラスの部分集合で、自己教師ありベンチマークとしてよく用いられています。
- ImageNet-1k:1000クラスの130万枚の画像からなるImageNetデータセットです。
・バックドアトリガー
バックドアトリガーには、HTBA(Hidden Trigger Backdoor Attacks)の公開トリガーを使用します。これは、ランダムな4x4RGB画像をバイリニア補完で目的のサイズに変更した正方形のトリガーとなります。実験ではトリガーには10~19のインデックスが設定されており、異なる手法の比較時には同一のインデックスに対応したトリガーを用いることで再現性を高めています。
・自己教師あり手法
実験では以下の6つの自己教師あり手法を用います。
- MoCo v2:ResNet-18をバックボーンとして使用します。
- BYOL:ResNet-18をバックボーンとして使用します。
- MSF:ResNet-18をバックボーンとして使用します。
- Jigsaw
- RotNet
- MAE(Masked Auto-Encoders):ViTBをバックボーンとして使用します。
・特徴の評価
SSLモデルの評価は、下流教師ありタスク上で線形分類器を学習させることで行います。線形分類器の学習時には、訓練セットに汚染された画像は含まれていません。
ImageNet-100における標的型攻撃
はじめに、ImageNet-100のうちランダムなカテゴリに対する標的型攻撃について実験を行います。
トリガーはHTBAトリガーからランダムに選択し、サイズは50x50に設定します。このトリガーを画像のランダムな位置にペーストし、選択されたカテゴリのうち半分の画像を汚染します。汚染画像の枚数は650枚程度で、注入率は0.5%となります。なお、SSLモデルの学習時には汚染された訓練セットを、線形分類器の学習時にはクリーンな訓練セットのうち1%または10%を用います。
線形分類器の評価にはImageNet-100の検証セットを利用し、トリガーを追加した場合・しなかった場合の性能を測定します。
ImageNet-100の1%で線形分類器を学習させた場合の結果は以下の通りです。なお、ターゲットクラス・トリガーのペアを変えて10回の実験が行われています。
総じて、MoCov2、BYOL、MSFでは、パッチ付きデータの偽陽性(FP)数が大きく増加しており、バックドア攻撃が有効であることがわかりました。
一方、exemplarベース手法ではないJigsaw、RotNetや、非常に新しい手法であるMAEでもあまり効果が見られませんでした。また、ImageNet-100の10%で線形分類器を学習させた場合の結果は以下の通りです。
この場合についても同様に、MoCov2、BYOL、MSFではバックドア攻撃が有効であることがわかりました。 なお、実際にバックドアモデルが予測に失敗した場合の例は以下の通りです。
注入率を変更した場合
これまでの実験(0.5%)から注入率を変更した場合の偽陽性数の変化は以下のようになります。
注入率は1%、0.2%、0.1%、0.05%の場合について実験されており、注入率が低いほど攻撃の成功率は低下し、最小の0.05%の場合はクリーンモデルに近い結果となりました。
なお、ImageNet-100では1カテゴリあたり1300枚ほどの画像が含まれていますが、1つのカテゴリに含まれる画像数がより大きい、大規模なラベルなしデータセットの場合、注入率が低くても標的型攻撃が成功しやすくなる可能性があります。
ImageNet-1kにおける標的型攻撃
次に、ImageNet-1kについて実験を行います。なお、ImageNet-1kはクラス数が多いため、単一のターゲットカテゴリ内の全画像を汚染することで、注入率0.1%で実験します。
このときのMoCo v2における結果は以下の通りです。
また、WordNetの階層構造を利用して、10の下位クラスからなるネコ科についての上位クラスを作成し、各カテゴリの1/10を汚染した場合、FPが高い上位10クラスのうち5クラスがネコ科のカテゴリになるなど、スーパークラス単位のバックドア攻撃も有効であることがわかりました。
ImageNet-100における非標的型攻撃
これまでと異なり、学習画像の5%をランダムに汚染する非標的型攻撃について実験を行った結果は以下の通りです。
この攻撃の結果、モデルの精度は5ポイント低下していますが、標的型攻撃と比べて全体の精度低下は小さくなっています。
これは、トリガーパッチが様々なカテゴリに存在するため、SSLモデルがトリガーを特定のカテゴリと関連付けにくくなることによると考えられます。
防御手法について
SSLモデルに対するバックドア攻撃の成功は、ある画像に異なるAugmentationを適用した二つの埋め込みを近づけるよう学習するSSL手法の特性により、あるトリガーが特定のカテゴリと強く関連付けられてしまうことによると考えられます。これは、古典的なSSL手法であるJigsawやRotNetでは標的型攻撃が有効でないことからも示唆されます。
しかし、古典的な手法は最近の手法と比べて性能が低いため、何らかの防御手法を確立することが望ましいです。
論文ではバックドア攻撃に対する防御法として、小さなクリーンデータセットで知識蒸留(論文ではComPressを使用)を行うことで、バックドアの影響を回避することを挙げています。結果は以下の通りです。
表の通り、ImageNetのうち一部(25%、10%、5%)のクリーンデータセット上で知識蒸留を行うことで、バックドア攻撃の効果を大きく低下させられることが示されました。
特徴空間の分析
最後に、バックドアモデル・クリーンモデルの特徴空間を可視化した結果は以下の通りです。
図の通り、トリガーを含む画像(Patched Data)の埋め込みは、バックドアモデルではターゲットカテゴリ画像と近い部分に、クリーンモデルではほぼ一様に分布しています。
このように、バックドアモデルではトリガーを含む画像が埋め込み空間上でターゲットカテゴリ画像に近くなることで、ターゲットカテゴリの偽陽性が増加することがわかりました。
まとめ
自己教師あり学習の訓練セットに対し汚染された画像を注入し、下流タスク上で学習された線形分類器にトリガーが含まれる画像を示すことでバックドア攻撃を行うことができることが示されました。
この攻撃は、MoCo v2、BYOL、MSFなど、同じ画像に異なるAugmentationを適用した2つの画像の埋め込みが近くなるように学習を行うSSL手法で有効であることがわかりました。
最近のSSLモデルの成功は、大規模なラベルなしデータセットを使用することができる点に依存していますが、攻撃者により汚染されたデータを混入させられるリスクも同時に存在することが明らかとなりました。
今後のSSL手法の開発においては、こうした脆弱性への対処も重要になるかもしれません。
この記事に関するカテゴリー