今天读的是一篇发表在ICCV2023上的文章,试图使用mvs的方法来助力neural reconstruction。
项目地址:点击前往
文章地址:点击前往
Abstract
由于缺乏深度信息,现有的基于volume的技术只是简单地沿着整个相机光线复制物体表面的2D图像特征。 我们认为这种重复会在空旷和封闭的空间中引入噪声,给生成高质量 3D 几何体带来挑战。 受传统MVS的启发,我们提出了一种端到端 3D 神经重建框架 CVRecon,旨在利用cost volume中丰富的几何嵌入来促进 3D 几何特征学习。 此外,我们提出了射线上下文补偿cost volume(RCCV),这是一种新颖的 3D 几何特征表示,可编码视图相关信息,并提高完整性和鲁棒性。 通过全面的实验,我们证明我们的方法显着提高了各种指标的重建质量,并恢复了 3D 几何形状的清晰细节。 我们广泛的消融研究为开发有效的 3D 几何特征学习方案提供了见解。
1 Introduction
主要有以下贡献:
- 我们确定了神经重建领域现有特征学习方案的基本局限性,并相应地建议利用多视图cost volume作为直接的 3D 几何特征表示。
- 我们观察到广泛使用的标准cost volume缺乏沿相机光线的分布参考信息,并提出光线补偿机制来解决这个问题。
- 为了提高非重叠和低纹理区域中成本量的鲁棒性,我们提出了一种新颖的上下文修复模块。
- 我们广泛的实验表明了我们提出的 RCCV 的有效性,及其与下游融合和预测模型的不可知性。
2 Related Works
介绍了volumetric-based 3D reconstructions、depth-based 3D reconstructions还有深度估计中的cost volume。
3 Methodology
![在这里插入图片描述](https://img-blog.csdnimg.cn/f6be86099ded43719e31f8cae6fefb70.png#pic_center)
3.1 Method Overview
整体架构如上图,每个key frame关键帧会有一系列的reference frame参考帧(注意和mvs里面的reference image与source image作区分,其实就是这两个东西)。首先建立一个标准的cost volume,然后使用提出的光线补偿和上下文修复模块来增强这个代价体,生成的RCCV被通过grid sampling来集成进全局feature volume。再之后,一个3D CNN被使用,来从volumetric表达转变成TSDF volume。
这么做的优势有几个。
- 直接创建RCCV作为输入图像的3D几何特征表达,与现存的back- projection机制相比,能避免引入噪声、提高重建质量。
- 我们避免了使用2D深度图作为中间表达,深度图有一致性的问题,并且如果估得不准,会丢失关于物体表面的信息。我们使用端到端框架来保留所有几何信息亿达到准确重建。
- 我们观察到标准的cost volume缺乏全局信息,代价的分布不是normalized并且出现了多峰的情况,从单个成本值预测几何形状需要光线分布作为参考。
- 如图3所示,非重叠和无纹理区域的代价体没有携带太多有用的信息。因此,我们提出光线补偿和上下文修复来提高cost volume的完整性和鲁棒性。
![在这里插入图片描述](https://img-blog.csdnimg.cn/52563135222a4f16a1026fc90066b8f9.png#pic_center)
3.2 Ray-contextual Compensated Cost Volume
先介绍了标准的cost volume是怎么做的,只是换了个说法来表达。
然后介绍了Camera Ray Compensation。对每个keyframe创建标准cost volume。基于深度图的方法会把这个volume变成2D,然后对每个像素估算深度。我们直接把它当作3D 特征表达,如果没有整体摄像机光线分布,3D 位置
[
d
,
h
,
w
]
[d, h, w]
[d,h,w] 的单个特征
R
C
R^{C}
RC 不足以解码其几何形状。为此,我们提出这个补偿模块,构建特征,并且concatenate到标准cost volume上。
![在这里插入图片描述](https://img-blog.csdnimg.cn/0940edf219744c0daf6bc4b0e4d2713b.png#pic_center)
最后介绍了一下Contextual In-painting。其实就是简单的卷积
关于fusion,获得每个图像关键帧的 RCCV 后,通过三线性插值的网格采样生成全局特征量。 考虑到我们提出的 RCCV 特征的下游操作的性质,我们发现它可以与各种帧间特征融合技术无缝集成。
关于TSDF,我们采用3D密集或稀疏卷积模块进行几何预测。 粗略和中等级别的预测是占用网格以稀疏化特征网格,而在精细级别,是直接预测 TSDF volume。
关于Loss,遵循NeuralRecon,我们将二元交叉熵(BCE)损失函数应用于粗略和中等水平的占用预测,并将L1损失函数应用于精细水平 TSDF预测。 TSDF真实值的分辨率为4cm。 遵循 Atlas,我们将TSDF volume真值中所有未观察到的列标记为未占用。
3.3 Implementation Details
介绍了实验细节。
4 Experiments
在ScanNet2上做了实验,效果看起来还不错。
5 Conclusion
复述了一下贡献。