NVIDIA、スケッチから本物のような風景画像をリアルタイムで変換できるGauGANを発表

NEWS 2019年03月19日

本日開催されたGPUテクノロジカンファレンスで、NVIDIAはセグメンテーションマップをリアルな写真に変換することができる、敵対的生成ネットワークを用いたモデル「GauGAN」について発表しました。

GauGANは、CVPR 2018に承認されたNVIDIAの研究論文であるpix2pixHDを改良したもので、より少ないパラメータとより生成可能なイメージオプションを持っています。セグメンテーションマップをリアルな画像に変換し、ラフな落書きを驚くほど簡単にフォトリアルな傑作に変えることができます。

まずアニメーションを見てみましょう。

人間のオペレータによって単純な絵が描かれると、右側のAIによってリアルタイムで詳細なとことまで絵を完成させてくれます。これは風景写真ではなく、人工知能によって生成された仮想ビーチです。

もう少し写真を見てみましょう。

図からわかるように、GauGANはPhotoshopのレイヤーのようなグラフィックを添付するのではなく、隣接する2つのレイヤー間の対応関係に従ってエッジを調整します。

GauGANのニューラルネットワークは、100万枚以上の画像（Flickrの4万1000枚の画像を含む）で訓練されているため、雪、木、水、花、茂み、丘、山のような180以上のオブジェクト間の関係を理解しており、石は水にどのような反射をするべきか、滝によってどのような状態の山が出現するべきか、近くの山と遠くの山との間のレベルはどのように振る舞うべきか..などを考慮にいれながら細部や質感、反射、影、色をすべて補完することができます。

例えば、「雪が降った時、空の様子も変化する」ということが学習済みであるため、地面の素材を「snow」に変えた瞬間に空の様子が変化します。合成できる画像の多様さと忠実さは、これまでにはなかった突出したレベルではないでしょうか？

デモ動画はこちら

GauGANの背後にある秘密とは？

ベースとなる部分は2017年にNVDIAが発表したpix2pixHDと同じです

pix2pixHDは条件付きGANの一種で、画像をセマンティックラベルドメインに変換し、ラベルドメイン内のオブジェクトを編集してから、イメージドメインに戻すことができ、画像内の木を建物に置き換える、車の色や道路の質感を変える、車を増やすなど、インタラクティブな画像編集が可能です。それに加え、2048×1024の解像度も実現しています。

このように、条件付きGANでは、セマンティックセグメンテーションマスクを写実的な画像に変換することができ、コンテンツ生成や画像編集など、幅広いアプリケーションを生み出すことができます。しかし、正規化のレイヤを通すと、条件付けしたセンマティックな情報を消してしまうという課題がありました。

GauGANでは、センマティック情報が抜け落ちないように内部のネットワークモデルが改良されています。この問題を解決するために、事前に特徴を計算しておき、正規化後に乗せるという形をとっています。

この手法は、センマティック画像合成タスクにおける変形タスクにも同様に効果的であり、制御可能な多様化された出力を達成することができる画像合成をサポートしてくれます。　論文はこちら

このモデルは建築家や、都市計画者やゲームデザイナー、が仮想世界を素早く合成するのを支援する強力なツールとされており、この技術があれば、「オブジェクトの形を描くだけ」でニューラルネットワークがその形を埋める細部を描いてくれ、誰でも自分のアイデアをリアルな写真にすることができます。ユーザーはスタイルフィルターを追加したり、生成されたイメージを変更して特定の画家のスタイルを調整したり、日中のシーンを日没に変更したりすることもできます。