NeRF：神经辐射场论文原理讲解

2023-11-12

一、新视角合成

NeRF是开创了一种全新的视角合成方法。新视角合成任务指的是给定源图像（Source Image）及对应的源姿态(Source Pose)以及目标姿态(Target Pose)，渲染生成目标姿态对应的图片(Target)。源姿态指的是从相机坐标转换为世界坐标的变换矩阵。涉及2D和3D之间的坐标转换。

如上图所示，一共有三个坐标系：世界坐标系[X,Y,Z]、相机坐标系[Xc,Yc,Zc]T和图像坐标系[x,y]T。

（一）、相机坐标系与世界坐标系的转换

相机坐标系和三维世界坐标系之间的转换关系如下：

叫做相机的外参矩阵，包含旋转信息：和平移信息：，用于从世界坐标转换到相机坐标。对于NeRF来说会提供从相机坐标系转换到世界坐标系的前述矩阵的逆矩阵。

（二）、图像坐标与相机坐标系的转换

二维图像的坐标和相机坐标系中的坐标转换关系如下：

其中，矩阵指的是相机的内参，包含焦距以及图像中心点的坐标。

坐标转换详细可见：新视角合成 (Novel View Synthesis) - (1) 任务定义 - 知乎

二、NeRF的作用

NeRF即神经辐射场，就是将全连接神经网络（非卷积）引入到物体的3维场景表示中。只需要同一物体不同角度的若干张图片作为监督，神经网络可以隐式地对该物体进行三维场景建模，然后在新视角下通过体渲染（volume rendering）的方法渲染生成新的角度的二维图像。在3D重建，数据增强，AR/VR等领域有着广泛的应用。

三、NeRF的流程

首先，是通过相机光线穿过场景，采样三维点集（x,y,z）。

然后，将这些采样的三维点集和相关的2维视角(θ,Φ)作为输入，输入到神经网络（MLP）中，输出采样点对应的颜色（view-dependent）和体密度（volume density）。

最后，用经典的体渲染方法将输出的颜色（c=(r,g,b)）和体密度（σ）渲染成2维图片。

通过最小化已知图片和通过渲染得到的图片之间的像素差值进行训练。方法的总体流程图如下所示：

四、NeRF的实施细节

（一）、场景表示

NeRF将一个连续的场景表示为一个5D的向量函数，它的输入包括空间点3D坐标X=（x,y,z）以及2D的视角方向d = (θ,Φ)。输出是与位置相关的体素密度σ和视角相关的该3D点颜色c=(r,g,b)。

神经网络表示为：。

1、输入坐标表示

根据光线追踪的基本只是，一条射线可以用公式rt=o+td 表示，其中o表示原点的坐标，d是方向向量，t是参数，射线上的每个点都可以由（x,y,z，θ,Φ）表示，即三维空间坐标和视角。

如上图所示，射线上的点可以用（x,y,z,theta,phi）来表示。详细可见新视角合成 (Novel View Synthesis) - (2) Scene Representation - 知乎。

2、MLP网络结构

在训练过程中通过优化神经网络权重Θ，使输入的5D坐标与输出体密度、方向相关的颜色对应起来。体素密度σ只和x相关，c和x、d均相关。网络结构如下图所示：

首先将3D位置坐标x输入到8层全连接层中，每一层有256个通道，输出为一维的体素密度σ（通过（256,1）的全连接层实现），以及一个256维的特征向量。将256维的中间特征向量与视角串联起来，组成一个256+24位的特征向量，再通过一个（256+24，128）全连接层，以及一个（128,3）的全连接层输出RGB颜色值。在第5层有一个跳跃链接，将位置信息直接串联到第五层的特征向量上，再进行前向传播。黑色箭头表示用ReLU做为激活函数，橙色箭头表示没有激活函数，黑色虚线箭头表示用sigmoid作为激活函数（实际作者在代码中并没有使用这个激活函数）。

（二）、体渲染

一条有近端（tn）和远端边界（tf）的相机光线rt=o+td的颜色为：

其中，

表示射线从tn到t这一段路径上的累积透明度，可以理解为这条射线从tn到t一路上没有击中任何粒子的概率。在实际运用中不可能用NeRF去估计连续的3D信息，因此就需要数值近似的方法。作者提出了一种均匀随机采样方法，第i个采样点如下式所示：

首先将射线需要积分的区域分为N份，然后在每一个小区域中进行均匀随机采样，这种方法可以保证采样位置的连续性。上式求颜色的积分公式可以简化为如下求和公式：

其中，是邻近两个采样点之间的距离。

（三）、位置编码

NeRF函数的输入为位置和角度信息，作者发现直接将位置和角度作为网络的输入得到的结果相对模糊，而用position encoding的方式将位置信息映射到高频则能有效提升清晰度效果。作者提出的位置编码函数如下：

P代表需要编码的位置，在NeRF中指的是X=（x,y,z），d = (θ,Φ)，其中对X编码时L=10，对d编码时L=4。故对一个采样点中有60个数，在nerf-pytorch-master项目中，在给视角编码时多加了一个维度，详见run_nerf.py 文件第44行，故中有24个数。

项目代码详见：

GitHub - yenchenlin/nerf-pytorch: A PyTorch implementation of NeRF (Neural Radiance Fields) that reproduces the results.

（四）、分层体素采样

NeRF的渲染过程计算量很大，每条射线上都要采样很多点，但实际上一条射线上的大部分区域都是空区域，或者被遮挡，对最终颜色的影响不大。作者提出了用coarse和fine两个网络同时优化的方法。首先用体渲染这一节中提出的采样方法，采样较为稀疏的Nc个点，优化coarse网络，NeRF中Nc=64。

得到颜色累加公式重新表述如下：

然后对权重归一化如下：

此处的可以看作是沿着射线的概率密度函数（PDF），如下图所示，通过这个概率密度函数，我们可以粗略地得到射线上的物体的分布情况。

接下来基于得到的概率密度函数来采样Nf个点，并用这Nf个点和前面的Nc个点共同计算优化fine网络，光线最终的渲染颜色为，采样点如下图所示：

该采样算法的核心就是用coarse网络来生成概率密度函数，再基于概率密度函数采样更精细的点。具体可参考：【NeRF论文笔记】用于视图合成的神经辐射场技术 - 知乎

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NeRF：神经辐射场论文原理讲解的相关文章

PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Pytorch RuntimeError：“host_softmax”未针对“torch.cuda.LongTensor”实现

我正在使用 pytorch 来训练模型但是在计算交叉熵损失时我遇到了运行时错误 Traceback most recent call last File deparser py line 402 in
在requirements.txt中包含.whl安装

如何将其包含在requirements txt 文件中对于Linux pip install http download pytorch org whl cu75 torch 0 1 12 post2 cp27 none linux x8
Pytorch .to('cuda') 或 .cuda() 不起作用并且卡住了

我正在尝试做 pytorch 教程当我尝试将他们的设备设置为 cuda 时它不起作用并且我的代码运行被卡住有关具体信息我正在使用 conda 环境蟒蛇3 7 3 火炬1 3 0 cuda 10 2 NVIDIA RTX2080TI
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
如何将 35 类城市景观数据集转换为 19 类？

以下是我的代码的一小段使用它我可以在城市景观数据集上训练名为 lolnet 的模型但数据集包含 35 个类别标签 0 34 imports trainloader torch utils data DataLoader datase
当前向包含多个自动分级节点时，PyTorch 关于使用非完整后向挂钩的警告

最近升级后当运行 PyTorch 循环时我现在收到警告当前向包含多个自动分级节点时使用非完整后向钩子训练仍在运行并完成但我不确定应该将其放置在哪里register full backward hook功能我尝试将它添加到神经网络
没有名为“torch”或“torch.C”的模块

希望得到像我 5 这样的解释因为我已经检查了所有相关答案但没有一个有帮助我已经安装了Python 我已经安装了Pycharm 我已经安装了Anaconda 我已经安装了 Microsoft Visual Studio 我有not安装了
如何在pytorch中动态索引张量？

例如我有一个张量 tensor torch rand 12 512 768 我得到了一个索引列表说它是 0 2 3 400 5 32 7 8 321 107 100 511 我希望从给定索引列表的维度 2 上的 512 个元素中选择 1
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch
CUDA 与 DataParallel：为什么有区别？

我有一个简单的神经网络模型我应用cuda or DataParallel 在模型上如下所示 model torch nn DataParallel model cuda OR model model cuda 当我不使用 DataPara
从 torch.autograd.gradcheck 导入 zero_gradients

我想复制代码here https github com LTS4 DeepFool blob master Python deepfool py 并且我在 Google Colab 中运行时收到以下错误 ImportError 无法导入名称

随机推荐

数据结构与算法-基础排序算法及TopK问题（Python）

排序基础排序算法冒泡排序选择排序插入排序归并排序快速排序经典问题 TopK 堆排序快速排序基础排序算法如果在面试中遇到排序算法先问清楚数据的特点结合具体的业务场景多和面试官交流先陈述思路得到面试官肯定以后再编码
Java8方法引用

内容简介方法引用Demo详解通过5种语法使用方法引用方法引用使用总结 1 在Java8中方法引用Demo详解 1 1 方法引用出现的背景在使用Lambda表达式的时候我们实际上传递进去的代码就是一种解决方案拿什么参数做什么操作
Spring MVC中如何限制Controller为POST或GET方式接收参数呢？

转自 Spring MVC中如何限制Controller为POST或GET方式接收参数呢在Web页面开发中最常用的接收参数值方式有 GET和POST方式那么SpringMVC中如何定义参数的接收方式呢实现思路只需在注解的时使用m
mark_as_advanced

Mark cmake cached variables as advanced mark as advanced CLEAR FORCE VAR VAR2 Mark the named cached variables as advance
什么是子查询？

当一个查询结果是另一个查询的条件的时候那么就称为子查询子查询是在SQL语句内的另外一条SELECT语句在SELECT INSERT UPDATE或DELETE命令中只要是表达式的地方都可以包含子查询子查询甚至可以包含在另外一个子查询
自动化测试-Appium-Desired Capabilities参数详解

分类定义与说明 General Capabilities 通用功能 Update settings Android Only UIAutomator 1 UIAutomator2 Only Espresso Only iOS Only i
数据仓库灵魂30问之如何建设数据中台？一幅图说清中台。

什么是中台什么是数据中台数据仓库实现了企业数据模型的构建大数据平台解决了海量实时数据的计算和存储问题数据中台要解决什么呢数据如何安全的快速的最小权限的且能够溯源的被探测和快速应用的问题数据中台不应该被过度的承载平台的计算
进程同步，信号量，互斥变量等说明

0 前言工作三年敲了3年代码 PHP C Java C 等开发过几种产品非计算机科班出身全部编程是自学最近闲来无事买了一本计算机操作系统第四版学一下个人感觉对比较重要的章节增加对编程的理解 1 进程的描述 1 1 进程的定
Python多元线性回归预测模型实验完整版

多元线性回归预测模型实验目的通过多元线性回归预测模型掌握预测模型的建立和应用方法了解线性回归模型的基本原理实验内容多元线性回归预测模型实验步骤和过程 1 第一步学习多元线性回归预测模型相关知识一元线性回归模型反映的是单个自
在html中取消超链接的下划线

在html的超链接a标签中取消下划线需要用到text decoration a text decoration none
AI部署之路

作者 Oldpan 编辑汽车人点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心模型部署技术交流群后台回复模型部署工程获取基于TensorRT的分类检测任务的部署源码好久没更文了
WSL2加载独立硬盘和设置固定IP

最近发现了win10 包括win11 上的神器 Linux子系统抱着玩一玩的态度安装了琢磨了几天逐步把Ubuntu完善起来了发现完全可以当作WIN Linux双系统使用还不用重启系统作为生产力工具绰绰有余总结了常用的工具软件和
CPU、GPU、DPU、TPU、NPU...傻傻分不清楚？实力扫盲——安排

人工智能的发展离不开算力的支持算力又是依附于各种硬件设备的没有了算力设备的加持就好比炼丹少了丹炉一样可想而知人工智能智能也就无用武之地了以深度学习为主的人工智能方向的发展更是离不开强大的算力支持随着深度学习的不断发展各种各样
登录验证，复杂验证

效果如图
程序员为什么要挤破头也要进大厂？别说是拧螺丝，递扳手我也愿意去！

大家好前段时间写了一篇关于程序员的年薪五十万指南引起了一些共鸣有些读者私信问我现在不是大厂竞争很激烈吗再说大厂的薪水待遇也没有比一些二线公司更好呀既然如此那为什么我们还要挤破脑袋进大厂呢今天就和大家闲聊几句以下说的仅代表我
K8S的卷、临时卷、持久卷、PV、PVC、SC

博客 cbb777 fun 全平台账号安妮的心动录 github https github com anneheartrecord 下文中我说的可能对也可能不对鉴于笔者水平有限请君自辨有问题欢迎大家找我讨论为什么需要卷容器中的
Maven项目添加mysql-connector-java依赖失败:dependency ‘mysql-connector-java‘not found

在IDEA中搭建Scala项目需要将处理过的数据存储到本地mysql数据库中故需要在Maven的pom xml中添加mysql connector java依赖包可能是我之前迁移AS项目时更改了在C盘User目录下的 m2 仓库文件
对视觉目标检测的整体认知（基于目标检测综述）

计算机视觉领域研究的绝大多数问题均存在诸多不确定性因素因为图像理解是成像的逆过程成像是从三维向二维投影的过程在此过程中不仅会丢失深度信息而且光照材料特性朝向距离等信息都反映成唯一的测量值即灰度或色彩而要从这唯一的测量值中恢
双向链表的实现

定义一个双向链表定义双向链表 typedef struct LinkNode int data 数据域 LinkNode next 下一个节点 LinkNode last 上一个节点 LinkNode 节点域 LinkList 头结点初
NeRF：神经辐射场论文原理讲解

一新视角合成 NeRF是开创了一种全新的视角合成方法新视角合成任务指的是给定源图像 Source Image 及对应的源姿态 Source Pose 以及目标姿态 Target Pose 渲染生成目标姿态对应的图片 Target 源姿态

NeRF：神经辐射场论文原理讲解

NeRF：神经辐射场论文原理讲解 的相关文章

随机推荐

热门标签

NeRF：神经辐射场论文原理讲解的相关文章