戦い続けろAI!敵対的学習のポイントは「手加減」にあり

「敵対的学習」とは、『機械学習において、この 10 年間でもっともおもしろいアイデア』と言われるほど、研究ではもちろん実用レベルでも大変注目されている手法です。今回はこちらの論文を基に、「敵対的学習」の多岐にわたるAIへの応用例と、最新の研究で明らかにされたよりよい「敵対的学習」のコンセプトを紹介します。

本日取り上げる論文:
Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow

目次
(1)幅広く使われる敵対的学習
(2)VDB
1.敵対的学習の難しさ
2.手加減
3.結果
(3)まとめ

(1) 幅広く使われる敵対的学習

https://www.christies.com/features/A-collaboration-between-two-artists-one-human-one-a-machine-9332-1.aspx?sc_lang=en#FID-9332

先日、AIが描いたこちらのアート作品が日本円にして約4800万円で売れたとのことでニュースになっていましたが、今回紹介していく「敵対的学習」という手法は、まさにこの画家のようなAIの作り方に代表されます。

敵対的学習では、2つのAIが登場します。この2つのAIはよく「偽札製造者」と「警察」に例えられますが、「偽札製造者」は警察に偽札だとバレないようなものを作り、対して「警察」は偽札をもれなく見つけて摘発できるように、とAI同士で戦いながらそれぞれが賢くなる(より正確には少しづつパラメータを調整する)という手法です。

ここで、偽札ではなく「肖像画」に置き換えてこの敵対的学習を行った結果、「肖像画製造者」によって描かれたオリジナルの絵が冒頭に紹介したものとなっています。

このような、特に何かを生成することを目的とした敵対的学習手法を特にGAN(Generative Adversarial Network)と呼びます。GANは絵画の生成だけではなく、オリジナルの映像や音楽の生成、高解像度化や高フレームレート化、さらにはプライバシー保護を目的とした医療データの標本の生成など、実用レベルで様々な分野に応用され始めています。

敵対的学習の利用は、直接何かを生成する分野に限りません。今回紹介する論文では「GAN」に加えて、「模倣学習」, 「逆強化学習」への利用を例に上げており、この3つの分野で共通して用いることのできる、敵対的学習のより良い適用のためのコンセプトを提案しています。(模倣学習, 逆強化学習についてはこの記事ではあまり掘り下げないことにします。)

(2) VDB

1. 敵対的学習の難しさ

敵対的学習手法は実用的で面白く華やかな面も多々あるのですが、実はこれまであまり好き好んで使われる手法ではありませんでした。(エンジニア泣かせもいいところなのです。)

理由は簡単で、(1)で「敵対的学習とは、2つの敵対するAIが戦いながらそれぞれ賢くなる手法」と紹介しましたが、実際には両方のAIが賢くなり続けることはほとんど無く、先程の偽札の例を用いると大抵「警察」が優秀になりすぎて、「偽札製造者」がどのように工夫しても偽札を摘発されてしまい偽札製造者の学習が不可能になる、というようなことが起こるためです。

2. 手加減

そもそもなぜ「警察」が優秀になりすぎるのかというと、それは警察が偽札製造者の些細なミスを早々に見つけてしまうことにあると考えられます。例えば本物のお札に印刷される人物の髪の毛は一本一本丁寧に描かれていますが、偽札業者がそれを綺麗に描けるようになるには時間がかかります。しかし警察は一旦「髪の毛に注目した偽札か否かの見分け方」を見つけてしまうと次々に摘発を成功させてしまい、偽札業者が試行錯誤して上手い髪の毛の描き方を学習しても全く効果が現れず、スランプに陥ってしまうのです。(そのためGANは、他のAI手法と比べてもややリスキーな手法として扱われていました。)

そしてここから今回の論文の提案手法『VDB』の紹介になります。

これまでの考察をまとめると、警察が早い段階から、「お札」の画像データから様々な情報を抽出し、効率よく偽札を摘発する方法を見つけてしまうことが問題であった、と言えます。そこでVDBは、その警察が使える情報量を制限してしまおうという、ある種「手加減」(※1)のような提案になっています。少し踏み込んだ説明を加えると、警察はVDBにおいても自由に「お札」の画像データから摘発に必要な情報を抽出しますが、得られた情報量が細かすぎる、多すぎると判断された場合(極端な例だと、人物像の髪の毛の本数やシワの数などを特徴として抽出していた場合)、抽出できる情報量を減らすような制約が加えられます。

3. 結果

Figure 8左側のグラフに示されているのですが、VDBを使ったGANを用いた時、既存手法と比べ圧倒的に2つのAIの学習が安定し(一番下の折れ線グラフ)、加えて長時間AI同士を戦わせ学習させ続けられるようになったため、本物か偽物かより見分けられにくい画像が生成できるようになりました。(Figure 9は実際に生成された画像。)

さらに、「模倣学習」, 「逆強化学習」と呼ばれる敵対的学習手法を用いた他の分野のAIでも有用性が確認され、論文は高く評価されています。

以下は「模倣学習」を使って、アクロバティックな体の動かし方を生成した例です。このAIは敵対的学習によって「良い体の動かし方」と「悪い体の動かし方」をしっかり理解しているので、たとえ急にものをぶつけられても動じない、素晴らしい体幹を獲得していることが見て取れます。

(3) まとめ

「敵対的学習」について、その利用の幅の広さとこれまでの課題、そしてより長くAI同士が戦い続けるように提案された「手加減」について紹介しました。この手法を導入することによって敵対的学習の利用がより手軽になり、絵画の生成のみならず様々な産業分野での応用が期待できそうです。

ライター:東京大学 学生

(※1) 論文中で「手加減」という言葉は全く使われていませんが、ライターなりに意訳しました。


AIメディアライターを大募集中!

ライターとして早速働きたいライター希望で、まずは相談したいライターではなく、メディアディレクターをやりたいその他