実世界でも深層学習モデルへのバックドア攻撃は通用するか？

backdoor attack 2021年12月14日

3つの要点
✔️ 現実世界の物体を利用したDNNモデルに対するバックドア攻撃の実証
✔️ ResNetをはじめとしたDNNモデルに対する物理的なバックドア攻撃に成功
✔️ 既存のバックドア攻撃に対する防御策が有効に機能しないことを確認

Backdoor Attacks Against Deep Learning Systems in the Physical World
written by Emily Wenger, Josephine Passananti, Arjun Bhagoji, Yuanshun Yao, Haitao Zheng, Ben Y. Zhao
(Submitted on 25 Jun 2020 (v1), last revised 7 Sep 2021 (this version, v4))
Comments: Accepted to the 2021 Conference on Computer Vision and Pattern Recognition (CVPR 2021).
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

ディープニューラルネットワーク(DNN)に対する敵対的攻撃には、データに摂動を加えて誤った出力を行わせるもの、学習時のデータセットに特殊なサンプルを混ぜることで、特定のトリガーを含む画像に対して誤った出力を行わせるバックドア攻撃(Data poisoning)などが存在します。

しかし既存の攻撃手法は、入力データに特定のデジタル処理をする必要があり、実世界で利用されるモデルに対してこのような攻撃を行うことは現実的ではないかもしれません。本記事では、既存手法のようなデジタル処理による攻撃ではなく、身に付けられるアクセサリーなどをトリガーとする物理的バックドア攻撃について研究した論文について紹介します。

バックドア攻撃の設定について

はじめに、物理的なバックドア攻撃の設定について説明します。

既存のバックドア攻撃では、攻撃者は学習されるモデルの重みやアーキテクチャについての知識は持たず、学習データの中に"dirty label"サンプルを少量注入することができる、という仮定に基づいています。物理的なバックドア攻撃では、さらに二つの仮定を追加しています。

攻撃者は、学習データに含まれる人物が何らかのトリガー物体を装着している画像を収集することができる。
すべてのクラスについて、Data Poisoningを行うことができる。

後者については、一部のクラスについてのみData Poisoningを行える場合も検証されています。

物理的バックドア攻撃のデータセットについて

物理的バックドア攻撃のためのデータセットは存在していないため、元論文では顔認識についてデータセットを収集しています。

・トリガー物体について

物理的バックドア攻撃のトリガーには、色付きの丸いシール、サングラス、タトゥー、白いテープ、バンダナ、イヤリングなど、容易に入手が可能で、大きさ・色が多岐にわたるものが含まれています。また、顔の様々な場所にこれらのトリガー物体は配置されます。

収集されたデータセットには、人種・性別が異なる十人のボランティアから得た、クリーンな画像535枚とポイズン画像2670枚が含まれています(画像例は元論文参照)。

・バックドア攻撃について

攻撃者はモデルの訓練中、ポイズンデータを注入することがことができます。元論文ではBadNets法()に基づき、攻撃者は特定のターゲットラベル$y_t$について、$m$枚のポイズンデータ(特定のトリガー$\delta$を含む)を、本来のデータセットに含まれていた$n$枚のクリーン画像に付け加えることができます。(ここで、$\frac{m}{n+m}$で表されるバックドア注入率(backdoor injection rate)は、攻撃者の能力を測定するための重要な指標となります。)

このとき、モデルの学習時の目標は以下の式で表されます。

ここで、$l$は学習損失関数(提案手法ではクロスエントロピー)、$\theta$はモデルパラメータ、$(x_i,y_i)$はクリーンデータ・ラベルペア、$(x^{\prime}_j,y_t)$はポイズンデータ・ラベルペアとなります。

・モデルトレーニングの設定について

データセットの作成時には、まずクリーンなデータセットを80:20の割合でtrain/testセットに分割し、目標の注入率に届くようにランダムなポイズンデータをtrainセットに注入します。

残りのポイズンデータは、テスト時の攻撃成功率の算出のために用いられます。また、訓練セットが小さいため、モデルの学習時には転移学習とデータ増強を行っています(詳細は元論文参照)。