它与GANs有什么不同？你对图像生成模型NeRF熟悉吗？

氖氖R 06/06/2022

三个要点
✔️NeRF是一个新颖的视点图像生成网络。
✔️NeRF的输入是5维的（空间坐标为x、y、z，视角为θ、φ），输出是体积密度（≒透明度）和辐射度（≒RGB颜色）。
✔️NeRF已被成功地用于获得具有比以前更复杂的几何形状的物体的新视角图像。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
written by Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
(Submitted on 19 Mar 2020 (v1), last revised 3 Aug 2020 (this version, v2))
Comments: ECCV 2020
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

首先看看下面的动画，以了解 "新观点图像生成 "的情况。

上面的动画是由NeRF生成的：一个新的视点是摄像机的位置，而一个新的视点图像的生成是对'当我们从某个位置看一个物体时，我们会得到什么图像？.

制作上述动画最简单的方法是在移动摄像机的同时拍摄一系列的镜头（就像视频一样），也就是说，通过对一个物体拍摄一系列的镜头，同时逐渐改变视角，这个物体看起来就像是在三维空间中被观看。然而，在NeRF中，相机只从三个视点（正面、侧面和背面）进行拍摄，并且有可能从 "未拍摄 "的视点获得图像，如 "斜向前 "和 "斜向后 "之间。这被称为新颖的视图图像生成。

介绍

这项研究通过使用神经网络来优化图像表示的参数，解决了观点合成（view synthesis）中一个长期存在的问题。

作者将静态场景表示为一个连续的五维函数，输出空间中每一点（x、y、z）的辐射度（有方向θ、φ）和密度。这个函数的作用类似于差分不透明度，它可以控制通过每个点的光线储存多少亮度（即多亮）。

该方法通过使用没有卷积层的多层感知器（MLP）进行回归，将五维变量（x、y、z、θ、φ）转换为体积密度和RGB颜色。

在 "三要素 "部分，我写了 "体积密度（≈透明度）"和 "发射辐射度（≈RGB颜色）"，但这并不准确。"体积密度是渲染时必须的变量，它控制着光线通过物体时的扩散和反射等。它被简化为透明度，但你可以把它看作是一个与光互动的元素，发射的辐射度也是一个变量，它在渲染时是必要的，控制着光线穿过物体的扩散、反射等。它不等于RGB颜色，而是指物体表面某一点发出的光（该点自身的光源和周围的反射或透射光的总和），应该只理解为渲染所需的一个变量。它应该被理解为渲染所需的一个变量。

为了获得回归的输出，即神经辐射场（NeRF），本研究中的实验进行如下。