GANを使用したAIへの攻撃!?生成画像を用いた初めての攻撃手法DaSTの登場!
3つの要点
✔️ APIなどのBlack BoxなAIへの攻撃を実データなしで行う手法DaSTの提案
✔️ 攻撃対象となるモデルの代替モデルを、GANで生成した生成画像で学習
✔️ 実データを用いて学習させた代替モデルよりも高い攻撃成功率を達成
DaST: Data-free Substitute Training for Adversarial Attacks
written by Mingyi Zhou, Jing Wu, Yipeng Liu, Shuaicheng Liu, Ce Zhu
Comments: Accepted by CVPR2020
Subjects: Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
はじめに
近年、AIへの攻撃が注目を集めています。これはAdversarial Attackと呼ばれ、人間が知覚できない程度の摂動を与えるだけで、AIモデルを騙すことができるというものです。一番有名な例として、下記の図のようにパンダをテナガザルに誤認識させるというものがあります。これは、中央の摂動を元の画像に与えるだけで、画像認識モデルはパンダをテナガザルに誤認識してしまうという例です。この摂動を与えた後の画像をAdversarial Example(AE)と呼びます。
特に、様々な分野で使用されて始めている深層学習手法に関するAdversarial Attackの研究は、非常にホットな分野で、攻撃と防御の手法がいたちごっこのように提案されています。
AIへの攻撃には、2つの設定があります。1つはWhite Boxという設定で、これは攻撃対象のモデルのすべての情報に攻撃者がアクセスできるという設定です。そしてもう1つはBlack Boxという設定で、GoogleやMicrosoftが展開しているAIモデルのように、攻撃対象のモデルの一部の情報にしかアクセスできないという設定です。Black Boxの設定は、現実世界で十分にあり得る設定であり、この設定でAIモデルを攻撃される手法が見つかると、非常に大きなリスクとなります。
今回、紹介する手法。DaSTはBlack Boxの設定で攻撃を行う手法であり、かつ従来の攻撃手法よりも攻撃の前提条件が大きく緩くなっており、非常に現実的な攻撃手法となっています。以下では、DaSTによる攻撃手法を詳細に解説します。
続きを読むには
(4506文字画像11枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー