当前位置：首页 > news >正文

湖南网站seo推广wordpress博客不分页

news 2025/11/15 7:12:53

湖南网站seo推广,wordpress博客不分页,石家庄今天最新新闻头条,jsp购物网站开发教程Cascade-MVSNet论文笔记摘要1 立体匹配#xff08;Stereo Matching#xff09;2 多视图立体视觉#xff08;Multi-View Stereo#xff09;3 立体视觉和立体视觉的高分辨率输出4 代价体表达方式#xff08;Cost volume Formulation#xff09;4.1 多视图立体视觉的3D代价… Cascade-MVSNet论文笔记摘要1 立体匹配Stereo Matching2 多视图立体视觉Multi-View Stereo3 立体视觉和立体视觉的高分辨率输出4 代价体表达方式Cost volume Formulation4.1 多视图立体视觉的3D代价体3D Cost Volumes in Multi-View Stereo4.2 立体匹配的3D代价体3D Cost Volumes in Stereo Matching 5 级联代价体Cascade Cost Volume5.1 假设范围Hypothesis Range5.2 假设平面间隔Hypothesis Plane Interval5.3 假设平面数Number of Hypothesis Planes5.4 空间分辨率Spatial Resolution5.5 翘曲操作或视图变换操作Warping Operation 6 特征金子塔Feature Pyramid7 损失函数8 实验分析8.1 实验数据集8.2 实验比较 X. Gu, Z. Fan, S. Zhu, Z. Dai, F. Tan and P. Tan, “Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020, pp. 2492-2501, doi: 10.1109/CVPR42600.2020.00257. 摘要在本文中作者提出了一种基于三维代价体积的多视点立体匹配方法的三维立体匹配方法。首先所提出的代价体是建立在一个特征金字塔编码的几何形状并且背景在逐渐更精细的尺度上。然后通过对前一个阶段的预测来缩小每个阶段的深度或视差范围。随着越来越高的代价体积分辨率和深度或视差间隔的自适应调整获得由粗到精细的输出。将级联代价体应用到具有代表性的MVS-Net上比DTU基准第一名提高了35.6%GPU内存和运行时分别减少了50.6%和59.3%。网络结构 1 立体匹配Stereo Matching 一个典型的立体匹配算法包括四个步骤匹配代价计算、匹配代价聚合、视差计算和视差细化。局部方法与相邻像素聚合匹配代价通常利用赢家通吃策略来选择最优视差。全局方法构造一个能量函数并试图将其最小化以找到最优视差。更进一步地方法利用信念传播和半全局匹配进行动态规划逼近全局优化。在深度神经网络的背景下Zbontar和LeCun首先引入了基于CNN的立体匹配方法其中引入了卷积神经网络来学习小斑块对的相似性度量。在GCNet中首次在立体匹配中引入了广泛使用的3D代价体其中视差回归步骤使用soft argmin操作来找出最佳匹配结果。PSMNet 进一步引入了金字塔空间池和三维沙漏网络进行代价体正则化得到了更好的结果。GwcNet 修改了三维沙漏的结构并引入了组间的相关性形成了一个基于组间的3D代价体。DeepPruner是一种从粗到细的方法它提出了一种基于可微分补丁匹配的模块来预测每个像素的剪枝搜索范围。 2 多视图立体视觉Multi-View Stereo 传统的多视图立体视觉大致可分为基于体素方法估计每个体素与表面之间的关系基于点云的方法直接处理三维点来迭代强化结果深度图重建方法它只使用一个参考和少量源图像进行单深度图估计。对于大规模的运动结构SFMStructure-from-Motion中的工作使用基于分布式运动平均和全局相机共视的分布式方法。现如今基于学习的方法在多视图立体视觉也表现出了优越的性能。多补丁相似度引入了一个学习的代价度量。 SurfaceNet和DeepMVS将多视图图像预扭曲到三维空间并使用深度网络进行正则化和聚合。近些年提出了基于3D代价体的多视图立体视觉技术。基于多视图扭曲的二维图像特征构建三维代价体并应用三维CNN进行代价正则化和深度回归。由于3D CNN需要较大的GPU内存这些方法通常使用下采样的代价体。实现高分辨率的代价体并进一步提高精度、计算速度和GPU内存效率是目前研究的热点。 3 立体视觉和立体视觉的高分辨率输出目前有一些基于学习的方法试图减少内存需求以产生高分辨率的输出。Point MVSNet不使用体素网格而是使用小的代价体来生成粗深度并使用基于点的迭代细化网络来输出全分辨率深度。相比之下一个标准的MVSNet结合级联代价体可以比Point MVSNet 使用更少的运行时间和GPU内存输出全分辨率深度和优越的精度。还有区分高级空间以减少内存消耗并构建一个缺乏灵活性的固定代价体表示的方法。另外还有用2D CNN建立额外的细化模块输出高精度的预测。 4 代价体表达方式Cost volume Formulation 基于学习的多视图立体视觉和立体匹配构造三维代价体来度量相应图像补丁之间的相似性并确定它们是否匹配。在多视图立体视觉和立体匹配中构建三维代价体需要三个主要步骤。首先确定离散假设的深度或视差平面。然后将提取的每个视图的二维特征扭曲到假设平面上构建特征体最后将其融合在一起构建三维代价。像素级的代价计算通常在固有的不适定区域中是模糊的如遮挡区域、重复模式、无纹理区域和反射表面。为了解决这个问题通常引入多尺度的3D CNN来聚合上下文信息并正则可能的噪声污染代价体。 4.1 多视图立体视觉的3D代价体3D Cost Volumes in Multi-View Stereo MVSNet 提出使用不同深度的前段到平行平面作为假设平面深度范围一般由稀疏重建决定。坐标映射由单应性确定 H i ( d ) K i ⋅ R i ⋅ ( I − ( t 1 − t i ) ⋅ n 1 T d ) ⋅ R 1 T ⋅ K 1 − 1 ( 1 ) H_i(d)K_i \cdot R_i \cdot\left(I-\frac{\left(t_1-t_i\right) \cdot n_1^T}{d}\right) \cdot R_1^T \cdot K_1^{-1} ~~~~ (1) Hi(d)Ki⋅Ri⋅(I−d(t1−ti)⋅n1T)⋅R1T⋅K1−1 (1) 其中Hi(d)是指第i个视图的特征图与深度d的参考特征图之间的单应性。Ki、Ri、ti分别为相机的内参、第i个视图的旋转矩阵和平移n1为参考相机的主轴。然后利用可微单应性变换扭曲二维特征图到参考相机的假设平面形成特征体积。为了将多个特征体汇总为一个代价体提出基于方差的代价度量来适应任意数量输入的特征体。 4.2 立体匹配的3D代价体3D Cost Volumes in Stereo Matching PSMNet使用视差分层作为假设平面视差的范围是根据特定的场景来设计的。由于左右图像已被校正因此坐标映射由x轴方向上的偏移量决定 C r ( d ) X l − d ( 2 ) C_r(d) X_l − d ~~~~(2) Cr(d)Xl−d (2) 其中 C r ( d ) C_r (d) Cr(d)为右视图在视差d处转换后的x轴坐标 X l X_l Xl为左视图的源x轴坐标。为了构建特征t体使用沿x轴的平移将右视图的特征图扭曲到左视图。有多种方法可以构建最终的代价体。GCNet 和PSMNet在不减少特征维度的情况下将左侧特征体和右特征体连接起来。还有人提出使用绝对差值的和来计算匹配代价。DispNetC计算关于左特征体和右特征体的完全相关性并为每个视差级别产生只一个单通道相关图。GwcNet 提出组间相关性将特征分成组并计算每一组的相关图。 5 级联代价体Cascade Cost Volume 下图展示了W×H×D×F的分辨率的标准代价体其中W×H表示空间分辨率D是平面假设的数量F是特征图的通道数。随着平面假设D的数量的增加更大的空间分辨率W×H和更细的平面间隔可能提高重建精度。然而GPU内存和运行时间随着代价体分辨率的增加而不断增长。正如R-MVSNet所示MVSNet能够在16 GB Tesla P100 GPU上处理最大H×W×D×F1600×1184×256×32的代价体。为了解决上述问题Cascade MVSNet提出了一个级联代价体公式并以粗到细的方式预测输出。 5.1 假设范围Hypothesis Range 如下图所示用R1表示的第一阶段的深度或视差范围覆盖输入场景的整个深度或视差范围。在接下来的阶段中可以基于前一个阶段的预测输出并缩小假设范围。因此有Rk1 Rk·wk其中Rk是第k个阶段的假设范围wk 1是假设范围的缩小因子。 5.2 假设平面间隔Hypothesis Plane Interval 在第一阶段的深度或视差间隔为I1。与通常采用的单代价体公式相比初始假设平面区间相对较大可以产生一个粗糙的深度或视差估计。在接下来的阶段中将应用更精细的假设平面区间来恢复更详细的输出。因此有 Ik1 Ik·pk其中Ik为第k阶段的假设平面区间pk 1是假设平面区间的缩小因子。 5.3 假设平面数Number of Hypothesis Planes 在第k阶段给定假设范围Rk和假设平面区间Ik相应的假设平面数Dk被确定为 Dk Rk/Ik。当一个代价体的空间分辨率被固定一个更大的Dk可以获得更多的假设平面和更准确的结果同时导致增加的GPU内存和运行时间。基于级联公式可以有效地减少假设平面的总数因为假设范围是逐步显著减少的同时仍然覆盖了整个输出范围。 5.4 空间分辨率Spatial Resolution 根据特征金字塔网络的实践在每个阶段将代价体的空间分辨率增加一倍并将输入特征图的空间分辨率增加一倍。将N定义为级联代价体的总阶段数然后将第k阶段代价体的空间分辨率定义为 W / 2 N − k × H / 2 N − k W/2^{N−k}×H/2^{N−k} W/2N−k×H/2N−k。我们在多视图立体视觉任务中设置N 3在立体匹配任务中设置N 2。 5.5 翘曲操作或视图变换操作Warping Operation 将级联代价体公式应用于多视图立体视觉基于公式1将k1阶段的单应性变换改写为 H i ( d k m Δ k 1 m ) K i ⋅ R i ⋅ ( I − ( t 1 − t i ) ⋅ n 1 T d k m Δ k 1 m ) ⋅ R 1 T ⋅ K 1 − 1 ( 3 ) H_i\left(d_k^m\Delta_{k1}^m\right)K_i \cdot R_i \cdot\left(I-\frac{\left(t_1-t_i\right) \cdot n_1^T}{d_k^m\Delta_{k1}^m}\right) \cdot R_1^T \cdot K_1^{-1}~~~~(3) Hi(dkmΔk1m)Ki⋅Ri⋅(I−dkmΔk1m(t1−ti)⋅n1T)⋅R1T⋅K1−1 (3) 其中 d k m d_k^m dkm为第k阶段第m个像素的预测深度 ∆ k 1 m ∆_{k1}^m ∆k1m为第k阶段学习的第m个像素的深度差值。类似地在立体匹配中根据级联代价体重新制定公式2。第k1阶段的第m个像素坐标映射表示为 C r ( d k m Δ k 1 m ) X l − ( d k m Δ k 1 m ) ( 4 ) C_r\left(d_k^m\Delta_{k1}^m\right) X_l − \left(d_k^m\Delta_{k1}^m\right) ~~~~(4) Cr(dkmΔk1m)Xl−(dkmΔk1m) (4) 其中 d k m d_k^m dkm为第k阶段第m个像素的预测视差 ∆ k 1 m ∆_{k1}^m ∆k1m为第k1阶段学习的第m个像素的差值。 6 特征金子塔Feature Pyramid 为了获得高分辨率的深度或视差地图通常使用标准代价体生成一个相对低分辨率的深度或视差图然后用2D CNN进行上采样和细化。标准代价体是使用高阶段特征图构建的该特征图包含高级的语义特征但缺乏低级的更精细的表示。Cascade-MVSNet参考了特征金字塔网络并采用其具有增加空间分辨率的特征图来构建更高分辨率的代价体。例如当将级联代价体应用到MVSNet 时从特征金字塔网络的特征映射{P1、P2、P3}中构建了三个代价体。如下图所示它们对应的空间分辨率分别为输入图像大小的{1/16、1/4、1}。 7 损失函数 N阶段的级联代价体产生N−1的中间输出和最终预测。对所有输出进行监督总损失定义为 Loss ∑ k 1 N λ k ⋅ L k ( 5 ) \text { Loss }\sum_{k1}^N \lambda^k \cdot L^k~~~~(5) Loss k1∑Nλk⋅Lk (5) 其中 L k L^k Lk为第k阶段的损失 λ k λ^k λk为对应的损失权重。在实验中采用与MVSNet相同的损失函数 L k L^k Lk。 8 实验分析 8.1 实验数据集 DTU是一个大规模的MVS数据集由124个不同的场景组成在7种不同的光照条件下在49或64个位置进行扫描。坦克和寺庙数据集Tanks and Temples dataset包含具有小深度范围的真实场景。更具体地它的中间场景由8个场景组成包括家庭弗朗西斯马灯塔M60黑豹操场和火车。使用DTU训练集来训练Cascade-MVSNet并在DTU评价集上进行测试。为了验证Cascade-MVSNet的泛化性Cascade-MVSNet还在坦克和模板数据集的中间集上使用在DTU数据集上训练的不进行任何微调的模型进行测试。 8.2 实验比较 MVSNetOursCascade-MVSNet在DTU和Tanks and Temples数据集上的表现都是最佳的。 MVSNetOursCascade-MVSNet生成了更完整的点云与更精细的细节。除了R-MVSNet 提供了具有后处理方法的点云结果外其它都是通过运行它们提供的预训练模型和代码来获得上述方法的结果。

查看全文

http://www.zqtcl.cn/news/455807/