![[无限自然]单张图片自动生成图像视频! 谷歌的离谱研究是什么?](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2021/ezgif.com-gif-maker_4_.gif)
[无限自然]单张图片自动生成图像视频! 谷歌的离谱研究是什么?
三个要点
✔️谷歌研究部发表研究报告,从单一图像生成类似图像视频的视频。
✔️通过结合视频合成和图像合成两个领域的知识来实现。
✔️ 开创了"永续观点生成"的新流派,不断产生新的观点。
Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image
written by Andrew Liu, Richard Tucker, Varun Jampani, Ameesh Makadia, Noah Snavely, Angjoo Kanazawa
(Submitted on 17 Dec 2020 (v1), last revised 18 Dec 2020 (this version, v2))
Comments: Accepted to arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR)![]()
![]()
勾勒
谷歌研究公司发布了一项关于永久视图生成的研究。其思路是由一张图片自动生成一段图像视频,如下图所示。
要实现这种生成,需要对未看到的区域进行新的内容推断,并在摄像机接近时对现有区域进行新的细节合成。构建无限生成的场景模型在内容创作、新颖的照片交互以及使用学习模型的方法(如基于模型的强化学习)中具有潜在的应用。
然而,从静止图像生成长视频被认为是非常困难的,有两种方式:视频合成和图像合成。
现代视频合成方法的新帧数有限,即使是用大量的计算资源进行训练,也是如此。这些方法适用于时域或依赖于递归模型。然而,这些方法是不够的,因为它们往往忽略了视频结构的重要元素。在现实中,视频是底层场景和摄像机几何的函数。适当的几何形状对合成摄像机序列至关重要。
此外,许多视图合成方法使用几何图形来合成高质量的视图。但是,这些方法只能在摄像机运动的有限范围内工作,如果摄像机距离太远,视图就会崩溃。要成功生成远景,需要对隐藏的区域进行涂抹,对未看到的区域进行外推,超出前一帧的边界(外画),并在随着时间的推移而靠近相机的区域增加细节(超分辨率)。
为了解决这些挑战,我们提出了一个利用几何学和图像合成技术的混合框架。具体来说,我们使用差分图对几何场景进行编码,并将永久视图生成任务分解为渲染-重现-重复的框架。首先,我们从新的视点渲染当前帧,利用视差来确保场景内容以几何正确的方式移动。接下来,我们对重新计算的图像和几何体进行完善。这一步包括内画、外画、在需要超分辨率的区域添加细节,以及合成新内容。由于我们对图像和视差都进行了细化,整个过程可以以自动递减的方式重复进行,允许持续生成新的视图。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别