新的视频生成的GANs,应用了INRs!
三个要点
✔️应用于视频生成的隐性神经表征(INR)。
✔️与现有的视频生成模式相比,生成的视频更长、质量更高
✔️还获得了其他有趣的属性,如视频的内插和外推以及各种运动采样的可能性。
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks
written by Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin
(Submitted on 21 Feb 2022)
Comments: ICLR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,从论文《NeRF:将场景表现为视图合成的神经辐射场》开始,隐式神经表征(以下简称INR)作为现有问题的可能解决方案,在计算机图形学和计算机视觉领域引起了大量的关注。
INRs也被称为神经场或基于坐标的神经网络,主要是指输入为坐标、输出为矢量的神经网络。以这种方式使用INR的一些优点是
- 连续和微分模型的实现。
- 硬件辅助的加速
- 强烈独立于输入维度的数据结构。
等,特别是在计算机图形领域,如NeRF,轻松处理高维输入的能力是与以往方法的决定性区别。(这是因为传统的图形方法除了三维网格之外,还需要在球体上使用规定的函数)。
使用这些INR进行生成性建模的情况正在逐渐增加,其中,去年使用INR进行图像生成,生成分辨率高于现有方法的图像,已经INR-GAN吸引了很多人的注意。
本文提出的DIGAN(动态感知的隐性生成对抗网络)是一个新的基于INRs的GAN,用于基于该INR-GAN的视频生成。与现有的视频生成模式相比,不仅能生成更长、更高质量的视频,而且还能该模型将具有各种有趣的属性,如视频的内插和外推以及各种运动采样的可能性。
DIGAN概述。
DIGAN(动态感知的隐式生成对抗网络)的模型概述是下图显示。
在这个模型中,生成器生成一个视频INR,根据视频的内容(分解后的视频的各个图像)和运动(视频中物体的运动)的各自特征,将视频转换成坐标。
此外,通过在内容向量上随机调节运动向量,有可能在共享视频初始帧的同时生成各种视频。
使用两种类型的鉴别器(Discriminator):图像鉴别器(DI)和运动鉴别器(DM)。从坐标(二维网格)获得的两幅图像和从发生器传来的相应时间(时间)以及它们之间的时间差,两类判别器分别识别相应图像(或这些图像中物体的运动)之间的联系是否自然。
以前的研究使用了计算昂贵的三维卷积神经网络(3DCNN)作为视频生成GAN的判别器,一次性处理整个视频,但DIGAN只使用了二维卷积,这大大降低了计算的复杂性。DIGAN通过只使用二维卷积,成功地大大降低了计算的复杂性。
与现有的视频生成模型进行了比较验证。
本文在以下条件下进行了比较验证
- UCF-101、Tai-Chi-HD、Sky Time-lapse数据集和Kinetics-600(仅食品类)。
- 根据以前的研究,用Inception score(IS)、Frechet video distance(FVD)和Kernel video distance(KVD)进行评估。
- 除非另有说明,所有模型都是在分辨率为128 x 128的16帧视频上训练的。
- 现有的视频生成模型VGAN、TGAN、MoCoGAN、ProgressiveVGAN、VideoGPT、TGANv2、DVD-GAN和MoCoGAN-HD被用来与DIGAN进行验证(参数来自文献)。
这里显示了DIGAN作为验证结果产生的视频数据集(UCF-101,Kinetics-food)。
可以看出,该系统能够生成非常高质量的视频。下表还显示了DIGAN和现有视频生成模型在评价指标方面的比较验证结果。
该表证实了DIGAN在所有数据集上都明显优于现有的视频生成模型。这些结果证明了使用INR进行视频生成的优势。
此外,这些验证产生了DIGAN有趣的特性,这些特性在现有的视频生成模型中是不存在的,如下所示。
- 平滑的视频插值和外推法
- 非自回归生成
- 多样化的运动采样。
我们将一个一个地看。
1.流畅的视频插值和推断
DIGAN可以通过控制Generator的输入坐标,轻松地对视频进行插值(填充中间帧)或外推(生成帧外的视频)。此外,由于INRs对视频进行连续建模,DIGAN插值或外推的视频比离散生成模型产生得更自然。
下图显示了天空延时数据集,在DIGAN上推断镜头的结果和MoCoGAN-HD,分别在天空时间推移数据集中。
上图是MoCoGAN-HD生成的视频,下图是DIGAN生成的视频,其中黄色边框是外推的区域。可以看出,MoCoGAN-HD无法推断视频,产生模糊的图像,而DIGAN能够产生清晰的视频。
2.非自回归生成
与现有的以前一帧为条件对下一帧进行自回归采样的视频生成模型不同,DIGAN可以通过控制输入坐标生成任意时间的样本。这使得DIGAN能够从未来的帧中预测过去的(或中间的)帧,或者以并行方式一次性计算整个视频。
下图显示了DIGAN在TaiChi数据集中的过去和未来框架的预测结果。
在这个实验中,t={6,7,8}的帧,包括黄框所示的帧,被作为t={3,}的帧的条件。,11},并预测在t = {3,...,11}的帧。可以确认的是,DIGAN允许对过去和未来的帧进行预测,例如通过慢慢坐起来。
3.多样化的运动采样
正如DIGAN概述中所解释的那样,DIGAN可以通过控制运动矢量从初始帧进行各种运动采样。
下图显示了由天空延时数据集中的两个随机运动矢量生成的视频。
这里需要注意的是,两幅图像中漂浮的云朵移动的方式不同,但左下角的树并没有消失,而是一直保持着,这证实了在保留图像主要部分的同时,各种运动采样是可能的。这证实了在保留录像的主要部分的同时,各种运动采样是可能的。
以初始框架为条件的抽样变化的自由度也取决于数据集。
摘要
情况如何?在本期的I在将隐性神经表征(INRs)用于视频生成方面,我们引入了DIGAN(动态感知的隐性生成对抗网络),这是一种将INRs用于视频生成的新尝试。
DIGAN留下的成果将加强利用INR解决现有方法的挑战的努力,这是一个非常令人兴奋的研究领域,看看未来会出现什么模型。本文介绍的DIGAN架构和生成的视频的细节可以在本文中找到,感兴趣的人可以参考一下。
与本文相关的类别