【Infinite Nature】1枚の画像からイメージビデオを自動生成！？ Googleのとんでもない研究とは！？

GAN（敵対的生成ネットワーク） 2021年02月09日

3つの要点
✔️ Google Researchが１枚の画像からイメージビデオ風の動画生成に関する研究を発表
✔️ 動画合成と画像合成の2つの領域の知見を組み合わせて実現
✔️ 新しいビューを継続的に生成し続ける「永久ビュー生成」という新しいジャンルを開拓

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image
written by Andrew Liu, Richard Tucker, Varun Jampani, Ameesh Makadia, Noah Snavely, Angjoo Kanazawa
(Submitted on 17 Dec 2020 (v1), last revised 18 Dec 2020 (this version, v2))
Comments: Accepted to arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR)

概要

Google Researchが、永久ビュー生成に関する研究を発表しました。これは、下図のように1枚の画像から自動でイメージビデオを生成するというものです。

このような生成の実現のためには、見えていない領域のために新しいコンテンツを外挿し、カメラが近づくにつれて既存の領域の新しい詳細を合成する必要があります。無限に生成可能なシーンモデルを構築することは、コンテンツ作成、新しいフォトインタラクション、モデルベースの強化学習のような学習済みモデルを利用した手法への応用が期待されています。

しかし、静止画像から長い動画を生成するということは、動画合成と画像合成という2点で非常に困難とされています。

最近のビデオ合成手法は、大規模な計算リソースを使って学習した場合でも、新規フレームの数が限られています。これらの手法は時間領域に適用したり、リカレントモデルに依存したりしています。しかし、これらの手法は動画の構造の重要な要素を無視していることが多く、不十分です。実際には、動画は基礎となるシーンとカメラのジオメトリの両方の機能を持っています。適切なジオメトリは、動画カメラシーケンスを合成するために非常に重要なのです。
また、多くのビュー合成手法では、ジオメトリを利用して高品質なビューを合成しています。しかし、これらの手法はカメラの動きの限られた範囲内でしか動作せず、カメラが遠すぎると、ビューが崩壊してしまいます。遠方ビューをうまく生成するためには、非表示領域のペイント、前のフレームの境界を超えた未見領域の外挿（アウトペイント）、および時間の経過とともにカメラに接近した領域の詳細を追加（超解像）する必要があります。

これらの課題を解決するために、ジオメトリと画像合成技術の両方を活用したハイブリッドなフレームワークを提案しています。具体的には、視差マップを使用して地理的シーンをエンコードし、永久ビュー生成タスクをrender-refine-and-repeatのフレームワークに分解します。まず、現在のフレームを新しいビューポイントからレンダリングし、シーンのコンテンツが幾何学的に正しい方法で移動することを保証するために視差を利用します。次に、再計算された画像とジオメトリを洗練させます。このステップでは、インペイント、アウトペイント、超解像を必要とする領域の詳細を追加し、新たなコンテンツを合成します。画像と視差の両方を洗練させるので、全プロセスを自動退行的に繰り返すことができ、新しいビューの永続的な生成を可能にしています。

続きを読むには

(6057文字画像15枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または