【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction

2023-10-27

今天读的是一篇发表在ICCV2023上的文章，试图使用mvs的方法来助力neural reconstruction。

文章目录

Abstract
1 Introduction
2 Related Works
3 Methodology
4 Experiments
5 Conclusion

Abstract

由于缺乏深度信息，现有的基于volume的技术只是简单地沿着整个相机光线复制物体表面的2D图像特征。我们认为这种重复会在空旷和封闭的空间中引入噪声，给生成高质量 3D 几何体带来挑战。受传统MVS的启发，我们提出了一种端到端 3D 神经重建框架 CVRecon，旨在利用cost volume中丰富的几何嵌入来促进 3D 几何特征学习。此外，我们提出了射线上下文补偿cost volume（RCCV），这是一种新颖的 3D 几何特征表示，可编码视图相关信息，并提高完整性和鲁棒性。通过全面的实验，我们证明我们的方法显着提高了各种指标的重建质量，并恢复了 3D 几何形状的清晰细节。我们广泛的消融研究为开发有效的 3D 几何特征学习方案提供了见解。

1 Introduction

主要有以下贡献：

我们确定了神经重建领域现有特征学习方案的基本局限性，并相应地建议利用多视图cost volume作为直接的 3D 几何特征表示。
我们观察到广泛使用的标准cost volume缺乏沿相机光线的分布参考信息，并提出光线补偿机制来解决这个问题。
为了提高非重叠和低纹理区域中成本量的鲁棒性，我们提出了一种新颖的上下文修复模块。
我们广泛的实验表明了我们提出的 RCCV 的有效性，及其与下游融合和预测模型的不可知性。

2 Related Works

介绍了volumetric-based 3D reconstructions、depth-based 3D reconstructions还有深度估计中的cost volume。

3 Methodology

在这里插入图片描述

3.1 Method Overview

整体架构如上图，每个key frame关键帧会有一系列的reference frame参考帧（注意和mvs里面的reference image与source image作区分，其实就是这两个东西）。首先建立一个标准的cost volume，然后使用提出的光线补偿和上下文修复模块来增强这个代价体，生成的RCCV被通过grid sampling来集成进全局feature volume。再之后，一个3D CNN被使用，来从volumetric表达转变成TSDF volume。

这么做的优势有几个。

直接创建RCCV作为输入图像的3D几何特征表达，与现存的back- projection机制相比，能避免引入噪声、提高重建质量。
我们避免了使用2D深度图作为中间表达，深度图有一致性的问题，并且如果估得不准，会丢失关于物体表面的信息。我们使用端到端框架来保留所有几何信息亿达到准确重建。
我们观察到标准的cost volume缺乏全局信息，代价的分布不是normalized并且出现了多峰的情况，从单个成本值预测几何形状需要光线分布作为参考。
如图3所示，非重叠和无纹理区域的代价体没有携带太多有用的信息。因此，我们提出光线补偿和上下文修复来提高cost volume的完整性和鲁棒性。

3.2 Ray-contextual Compensated Cost Volume

先介绍了标准的cost volume是怎么做的，只是换了个说法来表达。
然后介绍了Camera Ray Compensation。对每个keyframe创建标准cost volume。基于深度图的方法会把这个volume变成2D，然后对每个像素估算深度。我们直接把它当作3D 特征表达，如果没有整体摄像机光线分布，3D 位置 [ d , h , w ] [d, h, w] [d,h,w] 的单个特征 R C R^{C} RC 不足以解码其几何形状。为此，我们提出这个补偿模块，构建特征，并且concatenate到标准cost volume上。
在这里插入图片描述
最后介绍了一下Contextual In-painting。其实就是简单的卷积
关于fusion，获得每个图像关键帧的 RCCV 后，通过三线性插值的网格采样生成全局特征量。考虑到我们提出的 RCCV 特征的下游操作的性质，我们发现它可以与各种帧间特征融合技术无缝集成。
关于TSDF，我们采用3D密集或稀疏卷积模块进行几何预测。粗略和中等级别的预测是占用网格以稀疏化特征网格，而在精细级别，是直接预测 TSDF volume。
关于Loss，遵循NeuralRecon，我们将二元交叉熵（BCE）损失函数应用于粗略和中等水平的占用预测，并将L1损失函数应用于精细水平 TSDF预测。 TSDF真实值的分辨率为4cm。遵循 Atlas，我们将TSDF volume真值中所有未观察到的列标记为未占用。

3.3 Implementation Details

介绍了实验细节。

4 Experiments

在ScanNet2上做了实验，效果看起来还不错。

5 Conclusion

复述了一下贡献。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)