AIが創造性を獲得。GAN:敵対的生成ネットワークとは何か 

近年ホットなディープラーニング。なかでも注目されている技術のトレンドの1つが、「敵対的生成ネットワーク」(Generative Adversarial Networks。以下、GAN)です。GANは『機械学習において、この 10 年間でもっともおもしろいアイデア』と言われるほど、研究はもちろん実用化レベルでも注目されている手法です。この記事ではGANについてわかりやすく紹介しながら、GANで何ができるのかを具体的に紹介していきます。

機械学習のトレンドGAN(敵対的生成ネットワーク)とは?

ディープラーニングの技術は日進月歩で進化しており、新たな研究が発表されると、すぐに実装コードが公開されたり、応用研究が進められたり、ビジネスに適用されたりします。

なかでも最近注目されている技術の1つが、「敵対的生成ネットワーク」(Generative Adversarial Networks。以下、GAN)です。GANは生成モデルの一種であり、データから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換できます。

GANは、正解データを与えることなく特徴を学習する「教師なし学習」の一手法として注目されており、そのアーキテクチャの柔軟性から、アイデア次第で広範な領域に摘用できます。応用研究や理論的研究も急速に進んでおり、今後の発展が大いに期待されています。

現在、文化面でちょっとした話題になっており、AIによって制作された芸術作品として初めて競売された作品に関わっていたり、さらに「ディープフェイク」と呼ばれる、一連のフェイクのデジタル画像や動画の背後にもGANが存在します。

以下が、GANが生成した画像データの一例です。

🔳実際には存在しないアイドルの顔を生成

 

🔳手書きの線画から本物のように着色

 

🔳写真をアニメキャラクターに変更

GAN(敵対的生成ネットワーク)の仕組みとその特徴

GANは、「ディープラーニング(Deep Learning)」という本の著者でもあるイアン・グッドフェロー(Ian Goodfellow)氏が考案したモデルで、いわゆる「教師なし学習(unsupervised learning)」の一つの手法です。これは、学習対象のデータはあるものの、それが何かという正解は与えられておらず、どうにかして何かしらの構造や法則を見いだすというもの。あたかも写真のようにリアルな画像の生成が可能であり、画像処理や情報可視化の分野で注目されています。

敵対的、とあるように、普通のディープラーニングのネットワークと異なり,、GANにはそれぞれ、ジェネレーター(generator)とディスクリミネイター(discriminator)という2つのネットワークが登場します。ジェネレーターは本物と同じような内容を作り出そうとする一方、ディスクリミネイターはレプリカか本物なのかを識別する役割を担っています。Generator側は怪盗、Discriminator側は探偵的なものに例えるとしっくりきます。レプリカを作る方は本物とできるだけ近づけようと努力し、対して識別する方は確実に見分けられるように、互いに競い合う仕組みとなっています。

ディスクリミネイターの識別能力が次第に上がり、本物とレプリカをうまく見分けられるようになったとすると、ジェネレーターは更に本物に近いレプリカを造るようになります。ディスクリミネイターが本物とレプリカを見分けられるようにさらに精度を上げて…と繰り返していくと、学習が終わることにはGeneratorは本物と区別が付きづらいレベルのデータの生成ができるようになります。最終的には本物と区別が付かないレプリカを製造できるようになるというわけです。

 

GAN(敵対的生成ネットワーク)の応用で広がる未来

ベースのシンプルなGANに加えて、最近は、GANを応用した様々な研究が行われており、用途も広がってきてます。GANで何ができるのかざっくり紹介していきます。

①高解像度の画像生成

実際に存在しない顔

一番目立つのが画像の生成でしょう。
与えたデータセットから、今までになかった画像を生み出すという研究が色々公開されています。人の顔、動物、部屋のインテリア、クールなファッション、アニメ、などさまざまな分野で研究発表が行われており、近いうちに実用例がいくつか出てきそうです。

 

②画像の翻訳

GANがモネっぽい画像に翻訳

上画像ような画像から違うテイストの画像への翻訳もかなりいいところまで来ています。ラフスケッチを書けば漫画家のタッチで仕上げてくれたり、航空地図から航空写真を作ってくれたり、様々な用途が期待されています。

 

③文章からの画像起こし

絵の特徴を文章で語っただけで画像にしてくれるText to Imageなども話題になりました。モンタージュ写真なども、今よりずっと精度の良いものができそうです。

 

④動画の翻訳

動画から動画の翻訳も結構のレベルまで来ています。上の映像では別の人をリアルタイムにシンクロさせていています。往年の女優を使った映画を作ったり、亡くなってしまった女優や俳優が若いころの姿で毎晩話しかけてくれたりなど、そんなことをサービスするビジネスが生まれたりするかも知れません。いろんな妄想が湧き出てきます。

 

⑤スタイル変換

CycleGANという異なる二つのドメイン画像を交換する技術。ウマをシマウマに変換したり、シマウマを馬に変換できたりします。

 

⑥音楽ジャンルを変換

画像や動画のスタイル変換でけではなく、音楽ジャンルの変化もできます。これは Pop から Classic へのジャンル変換の一例です。変換結果の曲の良し悪しは個々人それぞれかもしれませんが,”Let It Be” を Classic に変換するとこのような興味深い結果が得られました。この技術を利用して、例えば自分の好きな音楽をジャンルを変換して聞いても面白いかも?

 

⑦動画予測

画像をもとに、その数秒先までの動画を予測する研究がMITから発表されています。この技術はまだまだ実用化には遠そうですが、完成すれば、例えば自動運転車が、歩行者や自転車の動きを予測するのに応用できそうです。

 

⑧画像における特定の領域を変換

画像内の特定の領域をより自然に変換させるGANを用いた手法です。

本提案手法は、画像から画像に変換する「CycleGAN」をベースに、ドメインセットから画像内の対象を変換します。これにより画像のコンテキストを維持しながらパンツからスカートへ変身が可能になります。

 

⑧イメージの演算

GANの面白いのは、偽物を生成するだけでなく、生成したイメージを演算できでしまうことです。左端の「メガネをかけた男」から「メガネをかけない男」を引き算し、それに「メガネをかけない女」を足すと、なんと「メガネをかけた女性」が生成されるという嘘みたいな演算もできてしまします。

GAN(敵対的生成ネットワーク)の今後、どんな風に使われていく?

上記では生成モデルしての画像合成を中心に紹介しましたが、物体検出やセグメンテーション、異常検知などへの改善手法としてGANを利用する例、さらにテキストや音声、音楽、動画、3次元データ、医療データを対象にした拡張研究も見受けられます。

また、本物に近い画像の生成ができる、ということは他のディープラーニングの学習用のデータセットとしても使えるケースがあり、実際、サンプル数が限られていいる医療画像データを生成して医療トレーニングに使うなどの用途も発表されています。

少ないデータセットでもパワフルに動作するといった点から、今後もディープラーニング方面でよく使われていくのではないでしょうか?
実際、歴史はまだ浅いとも言え、どんどん早いスピードで発展しており、優れた論文が毎週のように出たりしています。(キャッチアップがとても大変ですが・・)

期待される実用化

もっとも期待されるのがクリエイティブ分野での活用でしょう。

ビジネス面での実用例はまだ少ないですが、GANを利用した自動着色アプリや、画像を自動生成するAPIが公開されたりなどなど‥、 GANを実装したソフトウェアが登場し始めています。デザイナーや流行のファッションスタイルを学んだGANが、新しいデザインを創り出すということもすでに実用化に向けて進められており、およその絵だけ描けば、残りを人工知能が完成させてくれるというような、GANを使ったデザインソリューションがすでに運用されています。

また、アニメやゲームなどのエンタメ分野でも実用化に向けて動き始めています。昨年、アニメーション画像形成技術「PSGAN」がDeNAにより開発されましたが、現在のレベルで、商用のアニメーションでも使用できるレベルまではきているとのこと。DeNAは、この技術を利用してのゲーム制作や、アニメーション技術の他社への提供を進めています。

いわゆるアーティスト・芸術家と呼ばれる世界にもGANが入ってくるかも知れません。例えば、米ニュージャージー州ラトガース大学の「アート&人工知能研究所(Art&Artificial Intelligence Lab)」は、ディープニューラルネットワーク技術を活用し、画家のように絵を描くアルゴリズムを開発。実際にアート作品を制作し披露しています。ジャンルとしては、肖像画、風景画、宗教画など多様な領域が含まれているとか。その他にも、囲碁や将棋の世界でトップ騎士たちがAIを使って新手を発見したり自己研鑽したりしているように、絵画や書道、彫刻などの美術家をはじめ、小説家や詩人、映画制作、など、さまざまなアート・クリエイティブの世界にGANが利用される可能性があります。

GANの登場によって人間固有の力として評価されてきた「インスピレーション」「クリエィティブ」の領域にAIが侵食しつつあるのは確かです。新しい価値を生み出してきた人間の想像・創造力=インスピレーションの正体は一体何なのか。AIの成長とともに、再定義が必要になる時が迫っているのかもしれません。

関連記事
「VDBによってGANの精度を改善する」敵対的学習の最新手法 
「なぜここまで賢くなるのか説明不可能」 ―画像生成系AI、GANを例にして