データ順序を変更するだけでニューラルネットワークを攻撃できる！？

backdoor attack 2021年12月17日

3つの要点
✔️ データ・バッチ順序の変更による攻撃手法
✔️ 学習プロセスの確率的性質を悪用
✔️ モデル性能の低下・学習進捗のリセット・バックドア攻撃を実証

Manipulating SGD with Data Ordering Attacks
written by Ilia Shumailov, Zakhar Shumaylov, Dmitry Kazhdan, Yiren Zhao, Nicolas Papernot, Murat A. Erdogdu, Ross Anderson
(Submitted on 19 Apr 2021 (v1), last revised 5 Jun 2021 (this version, v2))
Comments: NeurIPS 2021 Poster
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

機械学習モデルは、その学習データを汚染されることで、学習済みモデル性能の低下・バックドアの導入などの攻撃を受ける可能性があります。

しかしこのような敵対的攻撃は、学習に用いるデータを攻撃者が操作できる必要があり、これは現実的ではないかもしれません。

本記事で紹介する論文は、既存の攻撃のように学習用データを変化させるのではなく、単に学習時のバッチやデータの順序を変更するだけで、モデルの挙動に影響を及ぼすことができることを示しました。

全体のパイプライン

提案手法であるBatch Reordering, Reshuffling and Replacing(BRRR)攻撃は、学習時のバッチの順序やバッチ内のデータ順序を操作することによって行われます。

この攻撃は、攻撃対象となるモデルにアクセスできないブラックボックス攻撃であり、以下のパイプラインに従います。

攻撃者は、攻撃対象モデルにアクセスできない代わりに、サロゲートモデルを並行して学習させ、その出力に基づいて学習時のバッチまたはそのデータの順序を入れ替えたり、データセット内の別のデータに置き換えます。

このとき、データにノイズを加えるなどの処理は行いません。

BRRR攻撃の背景

提案された攻撃手法は、現在のディープニューラルネットワークの確率的性質を悪用したものであると言えます。

まず、攻撃対象となるモデルが、パラメータ$\theta$、学習データセット$X=\{X_i\}$、損失関数$L(\theta)$となるディープニューラルネットワークであると仮定します。このとき、$i$番目のデータポイントに対応する損失を$L_i(\theta)=L(X_i,\theta)$とすると、$k$番目のバッチ(サイズ$B$)における損失平均は$hat{L}_{k+1}(\theta)=frac{1}{B}\sum^{kB+B}_{i=kB+1}L_i(\theta)$と表されます。ここで、学習全体でのサンプル数を$N \cdot B$とすると、最適化したい損失は$hat{L}(\theta)=frac{1}{N}\sum^N_{i=1}\hat{L}_i(\theta)$となります。

このとき、学習率$\eta$について、SGDアルゴリズムにおける重み更新は以下の式で表されます。

$\theta_{k+1}=\theta_k+\eta \Delta \theta_k$
$\Delta \theta_k=-\nabla_\theta\hat{L}_k(\theta_k)$

このとき、$N$回のSGDステップ後のパラメータは以下のようになります。

この式の通り、最終的なパラメータ$\theta_{N+1}$は学習時のバッチの順序に依存する項を含んでおり、これはdata order dependentで示されています。提案手法は、この順序依存項を操作することにより、最終的なモデルの性能を低下させるなどの攻撃を行います。

これは、バッチサンプリング手順が不偏であることを前提とした学習アルゴリズムの特性を悪用したものであるといえます。

ミニバッチの勾配は、サンプリング手順が不偏であれば真の勾配を近似しているとみなすことができますが、提案手法では作為的にデータ・バッチ順序を操作することにより、この仮定を悪用して攻撃を行います。

BRRR攻撃の分類

BRRR攻撃は以下の三種類に分かれています。

Batch reshuffling：バッチ内のデータポイントの順序を変更します(データポイントの出現回数は変更されません)。
Batch reordering：バッチの順序を変更します(バッチ内のデータポイントは内容・順序ともに変更されません)。
Batch replacement：バッチ・データポイントを置き換えます(データポイントの出現回数が変更される場合もあります)。

ここで、バッチまたはデータポイント順序の変更方針は以下の図に分類されます。

Low-High：損失が小さいものから大きい方へ並び替える。
High-Low：損失が大きいものから小さい方へ並び替える。
Oscillation inwards：損失が最も大きいもの・小さいものを交互に順番に並べる。
Oscillations outward：損失が中央値以上のうち最小・中央値以下のうち最大のものを交互に順番に並べる。

これらの攻撃は、以下の疑似アルゴリズムにしたがって実行されます。

より詳細な疑似アルゴリズムについては元論文のAlgorithm 2をご覧ください。

Batch-Order Poisoning(BOP)・Backdooring(BOB)攻撃

機械学習モデルに対するポイズニング・バックドア攻撃は、通常、学習時のデータセット$X$に敵対的なデータポイント$\hat{X}$を追加するか、データポイントを$X+\delta$へと変更することで行われます。

バッチ順序の変更による攻撃は、これらのポイズニング・バックドア攻撃にも適用することができます。

具体的には、敵対的なデータポイント$\hat{X}_k$に対応する勾配を、それと類似した勾配を持つデータポイント$X_i$によって近似します($\nabla_\theta \hat{L}(\hat{X}_k,\theta_k) \approx \nabla_\theta \hat{L}(X_i,\theta_k)$)。

このとき、パラメータ更新則は以下のようになります。

この攻撃手法は、オリジナルのデータセットを変更することなく行うことができるポイズニング・バックドア攻撃であり、検知・防御が非常に困難となりうる強力な攻撃であると言えます。

実験結果

実験では、CIFAR-10、CIFAR-100、AGNewsデータセットを利用します。CIFAR-10、CIFAR-100ではソースモデル(被攻撃者)としてResNet-18とResNet-50を、攻撃者のサロゲートモデルとしてLeNet-5とMobileNetを利用します。AGNewsではソースモデルとして三つの全結合層、サロゲートモデルとして一つの全結合層を利用します。

総じて、攻撃者のサロゲートモデルは、ソースモデルと比べて低い性能のモデルに設定されています。

Integrity attacks

Batch reshuffling・Batch reorderingを行った場合の、各ソースモデルの最高性能は以下の表で示されます。

(より詳細な結果は元論文表4をご覧ください。)

総じて、Batch reordering攻撃はコンピュータビジョンタスクにおいて有効に機能し、Batch reshuffling攻撃はどのタスクでも有効に機能していることがわかります。また、Batch reshuffling攻撃を行った場合の各ソースモデルの最高性能は、攻撃者がデータセットを学習できていない1エポック目の時点であり、それ以降のほとんどのエポックでランダム予測以下まで性能が低下しています。

ResNet18に対するBatch reshuffling攻撃の学習曲線の例は以下のようになります。

総じて、データポイント順序やバッチ順序の変更により、モデルの性能を低下させたり、学習結果をリセットできることがわかりました。

Availability attacks

次に、Availability attacksについて考えます。ここでは、特定のエポックにおいて攻撃を行った場合に、モデルの学習を遅らせることができるかについて実験を行います。

このときの結果は以下の図で示されます。

この図では、10エポックにおいてのみ順序変更攻撃が行われています。攻撃が成功した場合、学習状態が大幅にリセットされ、元の性能に戻るまでに多くのエポックが必要となり、非常に大きな脅威となりうることがわかりました。

バックドア攻撃

最後に、バッチ順序変更によるバックドア攻撃についての実験を行います。

ここでは、以下の図に示されるトリガーを含む画像について、前述したBOB攻撃を行います。

結果は以下の通りです(設定の詳細は元論文参照)。

総じて、トリガーの種類やブラックボックスか否かで性能は変化しますが、順序を変更したバッチを少量挿入するのみで、元データを変更することなくバックドアを導入できることが示されました。

まとめ

学習データを変更する必要がある既存の攻撃手法と異なり、バッチまたはデータポイントの順序を変更するのみで攻撃を行う新たな手法を提案した論文について紹介しました。驚くべきことに、順序の変更のみでもバックドア攻撃を行えることまでもが示されており、既存の攻撃手法と大きく異なる新たな脅威が出現したと言えるでしょう。