実世界でも深層学習モデルへのバックドア攻撃は通用するか?
3つの要点
✔️ 現実世界の物体を利用したDNNモデルに対するバックドア攻撃の実証
✔️ ResNetをはじめとしたDNNモデルに対する物理的なバックドア攻撃に成功
✔️ 既存のバックドア攻撃に対する防御策が有効に機能しないことを確認
Backdoor Attacks Against Deep Learning Systems in the Physical World
written by Emily Wenger, Josephine Passananti, Arjun Bhagoji, Yuanshun Yao, Haitao Zheng, Ben Y. Zhao
(Submitted on 25 Jun 2020 (v1), last revised 7 Sep 2021 (this version, v4))
Comments: Accepted to the 2021 Conference on Computer Vision and Pattern Recognition (CVPR 2021).
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
ディープニューラルネットワーク(DNN)に対する敵対的攻撃には、データに摂動を加えて誤った出力を行わせるもの、学習時のデータセットに特殊なサンプルを混ぜることで、特定のトリガーを含む画像に対して誤った出力を行わせるバックドア攻撃(Data poisoning)などが存在します。
しかし既存の攻撃手法は、入力データに特定のデジタル処理をする必要があり、実世界で利用されるモデルに対してこのような攻撃を行うことは現実的ではないかもしれません。本記事では、既存手法のようなデジタル処理による攻撃ではなく、身に付けられるアクセサリーなどをトリガーとする物理的バックドア攻撃について研究した論文について紹介します。
バックドア攻撃の設定について
はじめに、物理的なバックドア攻撃の設定について説明します。
既存のバックドア攻撃では、攻撃者は学習されるモデルの重みやアーキテクチャについての知識は持たず、学習データの中に"dirty label"サンプルを少量注入することができる、という仮定に基づいています。物理的なバックドア攻撃では、さらに二つの仮定を追加しています。
- 攻撃者は、学習データに含まれる人物が何らかのトリガー物体を装着している画像を収集することができる。
- すべてのクラスについて、Data Poisoningを行うことができる。
後者については、一部のクラスについてのみData Poisoningを行える場合も検証されています。
物理的バックドア攻撃のデータセットについて
物理的バックドア攻撃のためのデータセットは存在していないため、元論文では顔認識についてデータセットを収集しています。
・トリガー物体について
物理的バックドア攻撃のトリガーには、色付きの丸いシール、サングラス、タトゥー、白いテープ、バンダナ、イヤリングなど、容易に入手が可能で、大きさ・色が多岐にわたるものが含まれています。また、顔の様々な場所にこれらのトリガー物体は配置されます。
収集されたデータセットには、人種・性別が異なる十人のボランティアから得た、クリーンな画像535枚とポイズン画像2670枚が含まれています(画像例は元論文参照)。
・バックドア攻撃について
攻撃者はモデルの訓練中、ポイズンデータを注入することがことができます。元論文ではBadNets法()に基づき、攻撃者は特定のターゲットラベル$y_t$について、$m$枚のポイズンデータ(特定のトリガー$\delta$を含む)を、本来のデータセットに含まれていた$n$枚のクリーン画像に付け加えることができます。(ここで、$\frac{m}{n+m}$で表されるバックドア注入率(backdoor injection rate)は、攻撃者の能力を測定するための重要な指標となります。)
このとき、モデルの学習時の目標は以下の式で表されます。
ここで、$l$は学習損失関数(提案手法ではクロスエントロピー)、$\theta$はモデルパラメータ、$(x_i,y_i)$はクリーンデータ・ラベルペア、$(x^{\prime}_j,y_t)$はポイズンデータ・ラベルペアとなります。
・モデルトレーニングの設定について
データセットの作成時には、まずクリーンなデータセットを80:20の割合でtrain/testセットに分割し、目標の注入率に届くようにランダムなポイズンデータをtrainセットに注入します。
残りのポイズンデータは、テスト時の攻撃成功率の算出のために用いられます。また、訓練セットが小さいため、モデルの学習時には転移学習とデータ増強を行っています(詳細は元論文参照)。
実験結果
以下の実験では、三つのDNNアーキテクチャ(VGG16、ResNet50、DenseNet)を利用して、物理的バックドア攻撃の検証を行います。
はじめに、特定の注入率でトリガー付きデータを注入した場合のVGG16モデル性能は以下のとおりです。
紫の線はモデルの精度を、水色の線は攻撃成功率を示しており、イヤリング(右端)以外のトリガー物体を利用した場合は、モデル精度を大きく低下させることなく攻撃に成功することがわかりました。また、25%の注入率で、三つのモデルに対し攻撃を行った場合は以下のようになります。
総じて、イヤリング以外については、物理的なトリガーを利用したバックドア攻撃が有効に機能することがわかりました。
物理的バックドア攻撃の失敗例について
次に、様々なトリガー物体を利用した場合のうち、攻撃が有効でない場合(イヤリング)について、さらに研究を行います。
はじめに、イヤリングを装着した画像に対するモデルのCAM(Class Activation Map)を以下に示します。
図の通り、モデルは画像のうち顔の領域を特に重視しています。そのため、顔の外側に位置するイヤリングは分類結果に影響を与えることが難しく、このことが攻撃成功率の低さにつながっていると思われます。
実際に、他のトリガー物体を顔の内側・外側に配置した場合の結果は以下のようになります。
表の通り、物理的なバックドア攻撃は、トリガー物体が顔の内側にある場合のほうが有効に機能することがわかりました。
攻撃可能なクラスが限られる場合について
データセットのうち、一部のクラスのみにポイズンデータを注入できる場合における結果は以下のとおりです。
この表では、攻撃可能なクラスが、データセット全体の75クラスのうち10クラスにのみに限られる場合の結果を示しています。
この設定でも攻撃成功率は高い値を示しており、物理的なバックドア攻撃の有効性を明らかにしたといえます。
物理的バックドアへの防御について
物理的なバックドア攻撃が有効であるなら、それを防御することができるのか、という疑問が次に浮かびます。
この疑問について、既存のバックドア攻撃に対する防御手法を利用した場合の結果は以下の通りです。
この表では、既存の防御手法によって検知されたポイズンデータの割合が示されています。
総じて、デジタルなトリガーと物理的なトリガーとに差異があるため、既存の防御手法は物理的トリガー物体に対してあまり有効には機能しないといえます。
まとめ
DNNモデルに対する既存のバックドア攻撃は、主にデジタル処理によるトリガーを含むものに限られていました。
しかし本研究により、現実世界の物体をトリガーとした物理的バックドア攻撃が実際に有効に機能しうることが示されました。
このことは実世界で運用される様々なモデルに対する深刻な脅威となりえるため、物理的バックドア攻撃に対する防御策の開発が重大な課題になったと言えるのではないでしょうか。
宣伝
cvpaper.challenge主催でComputer Visionの分野動向調査,国際発展に関して議論を行うシンポジウム(CCCW2021)を開催します.世界で活躍している研究者の講演や天才に勝つためのチームづくりについて議論を行う貴重な機会が無料なので,是非ご参加ください!!
この記事に関するカテゴリー