事前学習済みモデルには危険が潜んでいる!?事前学習済みモデルへの攻撃手法RIPPLeの登場!

事前学習済みモデルには危険が潜んでいる!?事前学習済みモデルへの攻撃手法RIPPLeの登場!

3つの要点
✔️ 事前学習済みモデルにはバックドアを仕掛けることができるというセキュリティ上の懸念点を指摘
✔️ 文章分類タスクにおいて、提案手法RIPPLeは高い精度でモデルの予測をコントロール可能   

✔️ 現実的な設定で、事前学習済みモデルに攻撃ができることを示しており、Web上の事前学習済みモデルをどう信頼すればよいかという新しい視点を与えた

Weight Poisoning Attacks on Pre-trained Models
written by Keita KuritaPaul MichelGraham Neubig
(Submitted on ACL 2020)

Comments: Published by ACL 2020
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL); Cryptography and Security (cs.CR); Machine Learning (stat.ML)

はじめに

近年、自然言語処理タスクにおいて事前学習済みモデルの利用が注目されています。代表的な例として、Googleの検索エンジンにも用いられているBERTが挙げられます。BERTはAttentionのみを用いたTransformerと呼ばれるモデルから構築されています。BERTや、その亜種はWikipediaのような大規模コーパスから教師ラベルを必要とせずに学習が可能であり、これを用いてファインチューニングすることで、少ないデータでもタスクを精度良く解くことが可能となります。BERTについての詳細は、AI-SCHOLARでも紹介しているので、ぜひご覧ください。

現実世界では、大量のデータを収集することは難しいため、様々な研究期間や個人が公開しているBERTのような事前学習済みモデルをダウンロードし、再利用することがデフォルトになりつつあります。しかし、この事前学習済みモデルは本当に安全なものなのでしょうか。

セキュリティの世界では、ソフトウェアをダウンロードするとき、ウイルス検知ソフトで問題がないことを確かめることが一般的です。しかし、AIの世界ではそのようなチェックは全く行われていません。それは、事前学習済みモデルにも脆弱性があるということが認知されていないためです。もし、事前学習済みモデルに脆弱性があり、それを知らずにそれを用いて企業がサービスを展開した場合、そのサービスは悪意のある第三者から何らかの攻撃を受ける可能性があります。真にAIが広く使われるようになるためにも、このような視点で考えていく必要があります。

今回紹介する論文では、事前学習済みモデルにバックドア(攻撃者が後で簡単に攻撃できるように、仕込んでおく脆弱性のこと)を仕込み、ファインチューニングした後のモデルであっても、攻撃が可能であることを示しました。以下では、その攻撃手法であるRIPPLeについて、順を追って説明します。

この記事をシェアする