INRsを適用した、新たな動画生成GAN！

GAN（敵対的生成ネットワーク） 2022年05月10日

3つの要点
✔️ Implicit Neural Representations(INRs)を動画生成に適用
✔️ 既存の動画生成モデルよりも長時間かつ高品質な映像の生成を実現
✔️ その他、映像の補間や外挿、多様なモーションサンプリングが可能であるなどの興味深い性質が得られた

Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks
written by Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin
(Submitted on 21 Feb 2022)
Comments: ICLR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、NeRF:Representing Scenes as Neural Radiance Fields for View Synthesisという論文を皮切りに、コンピュータグラフィックスやコンピュータビジョンにおいて、Implicit Neural Representations(以下INRs)が既存の課題を解決できるのではないかと非常に注目を集めています。

INRsは、neural fieldやcoordinate-based neural networksとも呼ばれ、主に入力が座標で出力がベクトルのニューラルネットワークのことを指します。このようにINRsを用いることによるメリットをいくつか挙げると、

連続性を持ち、微分可能なモデルの実現
ハードウェアによる高速化
入力の次元に強く依存しないデータ構造体

などがあり、特にNeRFなどのコンピュータグラフィックス分野では、高次元の入力を簡単に処理出来ることがこれまでの手法との決定的な違いになっています。（従来のグラフィックス手法では、三次元グリッドに加えて球体上の規定関数を使う必要があったため）

このINRsを生成モデリングに利用するという試みも徐々に増えてきており、その中でも昨年、INRsを画像生成に使用し既存の手法を超える解像度の画像を生成したことでINR-GANが注目を浴びました。

本稿で紹介するDIGAN（dynamics-aware implicit generative adversarial network）は、このINR-GANを元にした動画生成のための新しいINRsベースのGANであり、既存の動画生成モデルに比べて長時間かつ高品質な映像の生成を実現しただけでなく、映像の補間や外挿、多様なモーションサンプリングが可能であるなど、様々な興味深い性質を持ったモデルになります。

DIGANの概要

DIGAN（dynamics-aware implicit generative adversarial network）のモデル概要は下図のようになっています。

このモデルでは、生成器(Generator)は動画のContent(動画を分解した際の一枚ずつの画像)とMotion(動画中の物体の動き)のそれぞれの特徴から動画を座標に変換したVideo INRを生成します。

また、ランダムにMotion vectorをContent vectorに条件付けることで、動画の初期フレームを共有しつつ多様な動画を生成する事が可能になっています。

識別器(Discriminator)は、image discriminator（D_I）とmotion discriminator(D_M)の２種類を用いており、生成器から渡された座標(2D grid)とそれに対応する時間(Time) から得られた2枚の画像とその時間差から、2種類の識別器がそれぞれ対応する画像（またはその画像の物体の動き）のつながりが自然かどうかを識別します。

これまでの先行研究では、動画生成GANのDiscriminatorには動画全体を一度に処理するために計算量が多い3次元畳み込みニューラルネットワーク(3DCNN)を使用していましたが、DIGANでは2次元畳み込みのみを用いることで、その計算量を大幅に削減することに成功しています。

既存の動画生成モデルとの比較検証

本論文では、以下の条件下で比較検証を行いました。

UCF-101、Tai-Chi-HD、Sky Time-lapse dataset、Kinetics-600(food classのみ)の４つのデータセットを使用
先行研究に従い、Inception score(IS)、Frechet video distance(FVD)、Kernel video distance(KVD)で評価
全てのモデルは、特に指定がない限り解像度128×128の16フレームの動画で学習される
DIGANとの比較検証に、既存の動画生成モデルであるVGAN、TGAN、MoCoGAN、ProgressiveVGAN、VideoGPT、TGANv2、DVD-GAN、MoCoGAN-HDを使用（パラメータは文献から収集したものを用いる）

検証の結果、DIGANにより生成された動画データセット（UCF-101, Kinetics-food）がこちらになります。

このように、非常に高品質な動画を生成できていることが確認できます。また、DIGANと既存の動画生成モデルの評価指標での比較検証の結果が以下の表になります。

この表から、DIGANは全てのデータセットで既存の動画生成モデルの性能を大幅に上回っていることが確認できます。これらの結果から、INRsを動画生成に用いることの優位性を実証することが出来ました。

加えてこれらの検証から、下に示すような既存の動画生成モデルにはないDIGANの興味深い性質を得ることが出来ました。

スムーズな映像の補間と外挿
非自己回帰的な生成
多様なモーションサンプリング

一つずつ見ていきます。

1.スムーズな映像の補間と外挿

DIGANは、Generatorの入力座標をコントロールすることで、簡単に動画の補間（中間フレームを埋める）や外挿（フレーム外の動画を生成）を行う事が出来ます。さらに、INRsは動画を連続的にモデル化するため、DIGANによって補間または外挿された動画は、離散生成モデルよりも非常に自然に生成されます。

下図は、Sky Time-lapse datasetにおいて、DIGANとMoCoGAN-HDでそれぞれ映像の外挿を実行した結果になります。

上がMoCoGAN-HD、下がDIGANによって生成された動画であり、黄色の枠線が外挿された部分になります。MoCoGAN-HDが映像の外挿ができずぼやけた生成になってしまっているのに対して、DIGANは鮮明に動画を生成できていることが確認できます。

2.非自己回帰的な生成

前のフレームを条件として次のフレームを自己回帰的にサンプリングする既存の動画生成モデルとは違い、DIGANは入力座標をコントロールすることで任意の時間のサンプルを生成することができます。これにより、DIGANは未来のフレームから過去（または中間）フレームを予測したり、動画全体を一度に並列計算することが可能になりました。

下図は、TaiChiデータセットにおけるDIGANの過去及び未来のフレームの予測結果を示したものになります。

この実験では、黄色の枠線で示したフレームを含めたt = {6,7,8} のフレームを条件として、t = {3,...,11} のフレームを予測しており、DIGANにより、ゆっくり腰を上げるなどの過去と未来の両方のフレームを予測できている事が確認できます。

3.多様なモーションサンプリング

DIGANの概要の際にも説明した通り、DIGANはmotion vectorを制御することで、初期フレームから多様なモーションサンプリングを行う事が出来ます。

下図は、Sky Time-lapse datasetにおける2つのランダムなmotion vectorから生成された映像になります。

ここで注目すべきは、２つの映像で浮かんでいる雲は異なる動きをしつつも、左下の木は消えずにずっと残っている点であり、このことから、映像の主要な部分は残しつつも多様なモーションサンプリングが出来ている事が確認できます。

また、初期フレームを条件としたサンプリングのバリエーションの自由度は、データセットによって異なります。

まとめ

いかがだったでしょうか。今回はImplicit Neural Representations(INRs)を動画生成に用いた新たな試みであるDIGAN（dynamics-aware implicit generative adversarial network）について紹介しました。

このDIGANが残した成果により、INRsを用いて既存の手法の課題を解決しようとする取り組みはより一層強まると考えられ、今後どのようなモデルが登場するのか非常に楽しみな研究分野です。今回紹介したDIGANのアーキテクチャや生成動画の詳細は本論文に載っていますので、興味がある方は参照してみてください。