GANの進化形現る! 幾何学を利用した新たなモデル「Sphere GAN」理論

現在、様々な画像認識技術において”GAN”が利用されるようになり、その応用範囲はめざましいものがあります。新しく発表された「Sphere GAN」では幾何の理論を基に構成することで次元数を引き上げ、計算精度の向上を実現しています。

参考論文 : Sphere Generative Adversarial Network Based on Geometric Moment Matching

従来のGANモデルの弱点

従来のGANモデルの主なアイデアは、偽物のデータと本物のデータ間の分布散らばりを最小化するものでした。GANはこれまで様々なモデルに利用されてきましたが、処理できない複雑な問題も存在します。例えば、連続的に画像データを生成し学習しようとすると、計算が爆発してしまう場合があります。

従来のGANが処理できない問題を解決するため、これまでIPMs(integral probability metrics : 積分確率法)に着目したWGANモデルなどの発展形が提案されてきました。

WGANとは、GANの識別関数にWasserstein距離の概念を導入することにより、GANの勾配消失問題などの解決を試みる手法です。

しかしながら、WGANモデルでは、調整が必要なハイパパラメータも増えてしまい、より多大な計算処理が必要となってしまいます。さらに、多くのIPMsベースのGANは、1次元のWassertein距離における双対形式の統計量のみで計算を行うため、サンプルの制約条件によって計算の不安定さに苦しむことが多くあります。

Sphere GANの新規性

本稿では、従来のGANの問題点を解決するために、Geiometirc moment matching手法と高次元データを超(次元)球面上で表現する「Sphere GAN」を紹介します。Sphere GANはWGANと異なり、識別関数の次元を増やすことで計算を行うためハイパーパラメータを増やすことなく、安定化された計算を効率的に行うことができます。

より詳細には、IPMsを定めるためにリーマン多様体を導入しますが、これら多様体の導入と超球面によるアイデアは、GANの試みでは初と言って良いでしょう。また、「Sphere GAN」は勾配による罰則やデータサンプリングなどを用いる必要もなく、これらも新しい試みです。

モデル概要

上記が大まかなモデル概要図になります。

学習の流れは従来のGANモデルと変わりありません。最大の違いは、識別関数において元画像と生成画像の分布の差を距離計算する際、各データを”超次元”において分布させることにあります。

生成データと実画像データを超次元平面上(黄色平面)に流し込み、超次元球上にマッピングしていきます。次に超次元球上に設定したN極点から、各データ点とのモーメント(距離)を計算し、それら距離の最小化するために学習していきます。

          Sphere GAN モデルにおける距離計算の図

 

Sphere GAN モデルのアルゴリズム

実験結果

実験として、ベッドルームについての生成画像の分布から、Sphere GANと従来モデルであるWGAN-GPの性能比較を行いました。

(1)FIDスコアによる比較

Sphere GANと従来モデルについて、それぞれ生成された画像からFIDスコアの比較を行いました。

FIDスコアは小さければ小さいほど、実際データ(LUSN Bedroom)の分布と生成データの分布の平均、バラツキの差が小さいことを意味しています。

ここで、上表からわかるように実際データを除く3つのモデルのFIDスコアに対し、Sphere GANは大きく下回っていることがわかります。よって、他モデルと比較して元画像データをよく参考にした生成画像を作っていることがわかりました。

参考 : FIDスコア

FIDスコアは以下の数式で与えられます。

P : 確率分布行列, m : 平均値行列,  C : 分散共分散行列を表しており、FIDスコアの式から分布に関する各値から絶対値を計算することで、”分布間の距離”としています。

 

(2)計算効率と収束範囲の比較

上記は学習を繰り返した結果の横軸を”反復回数”、縦軸を”勾配ノルム”としたグラフになります。

WGAN-GPが100000回程度の反復において収束しているのに対し、ShpereGANはより効率的に大きい勾配を算出し、かつ300000回の計算においても計算可能であることがわかります。

終わりに

現在でも幅広く利用されているGANの新たな可能性を紹介しました。幾何学的な超次元球面の理論をGANに実装することにより、計算可能な領域(次元)を増やしています。今後、既存のGANを利用したモデルに適用することで更なる精度の向上や、従来のGANでは成し得なかった研究の可能性を追求することが可能になると思います。

また、今後も技術的応用だけでなく、幾何学や位相といった分野の理論的側面を機械学習系統の研究に実装することで、”モデルそのものの性能”を向上させる試みは今後一層重要になってくるのではないでしょうか。