「VDBによってGANの精度を改善する」敵対的学習の最新手法　

論文 2018年11月13日

「敵対的学習」とは、『機械学習において、この 10 年間でもっともおもしろいアイデア』と言われるほど、研究ではもちろん実用レベルでも大変注目されている手法です。今回はこちらの論文を基に、「敵対的学習」の多岐にわたるAIへの応用例と、最新の研究で明らかにされたよりよい「敵対的学習」のコンセプトを紹介します。

本日取り上げる論文：
Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow

(1) 幅広く使われる敵対的学習

https://www.christies.com

先日、AIが描いたこちらのアート作品が日本円にして約4800万円で売れたとのことでニュースになっていましたが、今回紹介していく「敵対的学習」という手法は、まさにこの画家のようなAIの作り方に代表されます。

敵対的学習では、2つのAIが登場します。この2つのAIはよく「偽札製造者」と「警察」に例えられますが、「偽札製造者」は警察に偽札だとバレないようなものを作り、対して「警察」は偽札をもれなく見つけて摘発できるように、とAI同士で戦いながらそれぞれが賢くなる（より正確には少しづつパラメータを調整する）という手法です。

ここで、偽札ではなく「肖像画」に置き換えてこの敵対的学習を行った結果、「肖像画製造者」によって描かれたオリジナルの絵が冒頭に紹介したものとなっています。

このような、特に何かを生成することを目的とした敵対的学習手法を特にGAN(Generative Adversarial Network)と呼びます。GANは絵画の生成だけではなく、オリジナルの映像や音楽の生成、高解像度化や高フレームレート化、さらにはプライバシー保護を目的とした医療データの標本の生成など、実用レベルで様々な分野に応用され始めています。

敵対的学習の利用は、直接何かを生成する分野に限りません。今回紹介する論文では「GAN」に加えて、「模倣学習」, 「逆強化学習」への利用を例に上げており、この3つの分野で共通して用いることのできる、敵対的学習のより良い適用のためのコンセプトを提案しています。（模倣学習, 逆強化学習についてはこの記事ではあまり掘り下げないことにします。）

(2) VDB

1. 敵対的学習の難しさ

敵対的学習手法は実用的で面白く華やかな面も多々あるのですが、実はこれまであまり好き好んで使われる手法ではありませんでした。（エンジニア泣かせもいいところなのです。）

理由は簡単で、(1)で「敵対的学習とは、2つの敵対するAIが戦いながらそれぞれ賢くなる手法」と紹介しましたが、実際には両方のAIが賢くなり続けることはほとんど無く、先程の偽札の例を用いると大抵「警察」が優秀になりすぎて、「偽札製造者」がどのように工夫しても偽札を摘発されてしまい偽札製造者の学習が不可能になる、というようなことが起こるためです。

2. 手加減

そもそもなぜ「警察」が優秀になりすぎるのかというと、それは警察が偽札製造者の些細なミスを早々に見つけてしまうことにあると考えられます。例えば本物のお札に印刷される人物の髪の毛は一本一本丁寧に描かれていますが、偽札業者がそれを綺麗に描けるようになるには時間がかかります。しかし警察は一旦「髪の毛に注目した偽札か否かの見分け方」を見つけてしまうと次々に摘発を成功させてしまい、偽札業者が試行錯誤して上手い髪の毛の描き方を学習しても全く効果が現れず、スランプに陥ってしまうのです。（そのためGANは、他のAI手法と比べてもややリスキーな手法として扱われていました。）

そしてここから今回の論文の提案手法『VDB』の紹介になります。

これまでの考察をまとめると、警察が早い段階から、「お札」の画像データから様々な情報を抽出し、効率よく偽札を摘発する方法を見つけてしまうことが問題であった、と言えます。そこでVDBは、その警察が使える情報量を制限してしまおうという、ある種「手加減」(※1)のような提案になっています。少し踏み込んだ説明を加えると、警察はVDBにおいても自由に「お札」の画像データから摘発に必要な情報を抽出しますが、得られた情報量が細かすぎる、多すぎると判断された場合（極端な例だと、人物像の髪の毛の本数やシワの数などを特徴として抽出していた場合）、抽出できる情報量を減らすような制約が加えられます。

3. 結果

Figure 8左側のグラフに示されているのですが、VDBを使ったGANを用いた時、既存手法と比べ圧倒的に2つのAIの学習が安定し（一番下の折れ線グラフ）、加えて長時間AI同士を戦わせ学習させ続けられるようになったため、本物か偽物かより見分けられにくい画像が生成できるようになりました。（Figure 9は実際に生成された画像。）

さらに、「模倣学習」, 「逆強化学習」と呼ばれる敵対的学習手法を用いた他の分野のAIでも有用性が確認され、論文は高く評価されています。

以下は「模倣学習」を使って、アクロバティックな体の動かし方を生成した例です。このAIは敵対的学習によって「良い体の動かし方」と「悪い体の動かし方」をしっかり理解しているので、たとえ急にものをぶつけられても動じない、素晴らしい体幹を獲得していることが見て取れます。

(3) まとめ

「敵対的学習」について、その利用の幅の広さとこれまでの課題、そしてより長くAI同士が戦い続けるように提案された「手加減」について紹介しました。この手法を導入することによって敵対的学習の利用がより手軽になり、絵画の生成のみならず様々な産業分野での応用が期待できそうです。

ライター：東京大学学生

(※1) 論文中で「手加減」という言葉は全く使われていませんが、ライターなりに意訳しました。

AIメディアライターを大募集中！

「AIをどこよりも分かりやすく、どこよりも身近に。」をコンセプトとした、
AI論文翻訳メディア『AI-SCHOLAR』のライターをWanted!!

【仕事内容】
・最新のAI論文を翻訳/解説記事の執筆

研究で読んだ論文をついでに翻訳解説し記事を執筆する仕事です。
署名記事で書いて頂き、自分の会社やブログへのリンクを貼って頂くのもOK。
個人のブランディングや知名度アップに使って頂いても構いません。

【ライター特典】

1記事単価：10,000円~
投稿記事数やライタ紹介によって特別特典有り
機械学習研究者のコミュニティー紹介
機械学習イベント/交流会への無料招待
有名企業や機械学習に力を入れている企業へのの就活支援有り(希望制)

【ライターメンバー】

動機理由

自分自身の研究を広めたい
機械学習をビジネスに活かすきっかけをつくりたい
研究を活かした仕事をしたい
アルバイトをする時間がない
学習内容をアウトプットしたい
AI-SCHOLARのライターコミュニティーに入りたいetc..

所属大学

東京大学/東京大学院/東京工業大学/東京工業大学学院/筑波大学/早稲田大学/慶応義塾大学院/慶応義塾大学/神戸大学/名古屋大学/東北大学/会津大学etc..

研究内容

ソフトコンピューティング/ロボティクス/汎用AI/関連領域etc..
＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿

そもそもAI(特にディープラーニング）は発展途上の技術であり、急激な勢いで進化しています。毎日、さまざまな論文が発表され、「最新の手法」が数週間で変わるぐらいその変化は激しいものです。

一方で、AIのビジネス活用の現場には、情報の非対称性が存在し、”何がほんとか分からない”と言う声も多く聞きます。ビジネスサイドのAI技術に対する理解不足が大きいため、真の課題解決やイノベーションに結びついていません。ブームに乗じて、それほど性能が高くないAIサービスや製品を見る機会も随分増えました。さらに今後の伸びしろに懐疑的な声も上がり始めています。

このサイトを見ることでAIの可能性を知り、わくわくしたり、考えたり、未来へ想いを巡らせる。そんな理解を深める”少しのきっかけ”を与えることができるメディアになれたらいいなと思っています。

「AI-SCHOLAR」では現在、このようなビジョンに共感してくれるエンジニアや研究者のライターを募集しています。

自分ならもっと良いコンテンツが書けるのに。。という想いを一度でも感じたことがある人であれば、
まずはAI-SCHOLARライターの扉を叩いて下さい。