当前位置：首页 > news >正文

网站内容规划北京通州区网站制作

news 2025/11/15 4:05:28

网站内容规划,北京通州区网站制作,池州市建设工程质量安全监督局网站,企业网站建设业务报价单1.abstract 最近推出的3D高斯飞溅(3DGS)#xff0c;它用多达数百万个原始椭球体来描述场景#xff0c;可以实时渲染。3DGS迅速声名鹊起。然而#xff0c;一个关键的悬而未决的问题仍然存在#xff1a;我们如何将多个3DG融合到一个连贯的模型中#xff1f;解决这个问题将使…1.abstract 最近推出的3D高斯飞溅(3DGS)它用多达数百万个原始椭球体来描述场景可以实时渲染。3DGS迅速声名鹊起。然而一个关键的悬而未决的问题仍然存在我们如何将多个3DG融合到一个连贯的模型中解决这个问题将使机器人团队能够共同建立其周围环境的3DGS模型。这项工作的一个关键见解是利用照片级真实感重建和3D基础模型之间的二元性前者从3D结构渲染真实的2D图像后者从图像对预测3D结构。为此我们开发了PhotoReg这是一个将多个照片级真实感3DGS模型与3D基础模型配准的框架。由于3DGS模型通常由单目摄像机图像构建因此具有任意比例尺。为了解决这一问题PhotoReg通过考虑这些模型中的深度估计积极地在不同的3DGS模型之间执行比例一致性。然后使用细粒度的光度损失迭代地精化对齐以产生高质量的融合3DGS模型。我们在标准基准数据集和我们自定义收集的数据集上严格评估PhotoReg包括使用两个四足机器人。 2.INTRODUCTION 本文研究了将多个独立构建的3DGS模型组合成一个统一模型的问题。解决这个问题将允许机器人团队以分散的方式探索和绘制大型未知空间。为了应对3DGS融合的挑战我们提出了我们的光度学三维高斯配准框架(PhotoReg)。经典的配准方法如迭代最近点配准方法及其变种[5]、[6]、[7]主要集中在通过最小化相应点之间的距离来对齐点云[8]。然而3DGS固有的连续和复杂的几何表示与传统配准方法管理的离散点集有很大的不同这就需要像PhotoReg这样的创新方法来进行有效的配准。 PhotoReg利用在互联网规模的数据集上训练的3D基础模型从2D图像对得出初始3D结构。这些模型提供粗略的估计以促进3DGS模型的初始对齐特别是在模型之间重叠最小的情况下。由于各个3DGS模型可能具有不同的比例PhotoReg通过在每个模型中考虑置信度感知深度估计来积极调整它们的比例。随后PhotoReg优化了细粒度光度损失该损失衡量模型中渲染图像的质量以确保3DG之间紧密对齐。我们对PhotoReg提供了广泛的经验评估包括对经典基准数据集和定制收集的数据的评估。这包括由在公共区域运行的两个四足动物收集的自定义数据集。本文的创新在于 1利用3D基础模型在重叠最小的情况下处理3DGS对齐 2)通过计算具有置信度的深度估计来重新调整各个模型的比例从而解决3DGS模型中的比例差异 3)通过优化渲染图像的质量来精确调整融合模型。 3.RELATED WORK 3D配准在机器人感知中配准是指寻找两个3D结构之间的变换。随着时间的推移配准两个点云已被广泛研究。 ICP [22] 或者找到对应点对并基于最近点假设估计它们之间的刚体变换。 color ICP [23]、Point to Plane ICP [24] 和鲁棒 ICP [25] 等变体在准确性和效率方面提高了该方法。目前已经探索了注册两个 NeRF 的方法。 NeRF2NeRF [26]提出通过手动选择关键点来对齐两个 NeRF。 DReg-NeRF [27] 通过使用深度学习自动对齐 NeRF 模型进一步推进了 3D 配准。已经尝试探索 3DGS 配准LoopSplat [28] 通过配准 3D 高斯图引入了一种新颖的环路闭合技术。然而LoopSplat 依赖 RGB-D 图像来获取深度传感器读数这限制了其在深度传感器不可用或不可靠时的适用性。 PhotoReg 可以在没有深度传感器的情况下注册 3DGS。可视化基础模型机器人技术受益于互联网规模数据训练的transformer[29]。特别是对于机器人感知这种视觉基础模型包括[30]、[31]、[32]。这些型号充当即插即用模块以促进一系列下游任务。例如DINOv2[33]在互联网规模的未标记数据上接受了培训采用了自监督技术使其能够深入理解视觉内容而不需要明确的注释。DUSt3R[34]是PhotoReg中使用的3D基础模型。它被设计成从RGB图像生成3D点图从而实现姿势估计并已被应用于下游机器人机械手感知[35][36]。PhotoReg利用基础模型的应急能力来执行稳健的对齐。 4.METHODOLOGY A.问题设置这项工作中解决的主要挑战涉及3DGS模型的融合。具体地说在给定输入3DGS模型G1和G2的情况下我们提出的方法旨在找到在G1的坐标框架内将G2与G1内聚地对齐的变换函数T。由于3DG的规模是任意的T需要处理可能具有非常不同的尺度的G1和G2。在深入研究我们提出的PhotoReg方法的细节之前我们首先给出了3DGS模型的数学定义和相应的变换函数。 B.Notation and Transforming Gaussian Splats 3DGS模型G包括一组3D高斯其中每个高斯由其3D位置µ来定义协方差矩阵Σ其描述了高斯分布在3D空间中的扩散和方向不透明度α以及球谐(SH)系数c其包含颜色信息 Transformation3DGS 模型的变换涉及对每个高斯的每个属性应用缩放、旋转和平移。设表示将 3DGS 模型从某个通用坐标系 A 映射到坐标系 B 的变换函数。该函数将坐标系 A 中的 3DGS 模型作为输入输出对应的坐标系。 B变换后的3DGS模型表示为。变换函数可以分别由缩放因子s、旋转R 和平移t 组成。假设且。每个属性的转换映射定义如下 C. PhotoReg Overview PhotoReg包括四个顺序阶段基本图像匹配选择每个输入3DGS模型中相邻区域的渲染图像对作为输入到3D基础模型初始估计获得3D基础模型对齐所用的旋转和平移的初始估计尺度估计通过置信度加权深度图解决3DGS模型之间的比例差异优化通过光度损失最小化同时优化比例、旋转和平移。该工作流程如图4所示。 D. Foundational Image Matching 我们详细介绍基础图像匹配 (FIM) 过程该过程利用视觉基础模型尤其是 DINOv2来启动我们的注册过程。 FIM 过程的输入由两个 3DGS 模型组成分别表示为 G1 和 G2每个模型与一组相机pose C1 和 C2 相关联。 FIM 的主要目的是从 G1 和 G2 中识别和提取给定相机pose的两个高质量渲染图像它们在语义级别上相似并且不受观看pose的影响。也就是说同一物体但角度相同也好截然不同也好只要语义类似那么这两个图像将被识别为相似。为了选择适当的图像作为 3D 基础模型的输入我们首先以不同的姿势渲染来自 G1 和 G2 的图像集 I1 和 I2。我们的目标是选择合适的图像对进行粗配准。我们寻求 v1 ∈ V1 和 v2 ∈ V2 使得我们以这种方法识别图像对其中一个从G1生成另一个从G2生成它们在语义和视觉上都是相似的。 E. Coarse Registration via 3D Foundation Models 我们继续使用图像对img1img2作为 3D 基础模型 DUSt3R [34] 的输入以获得初始粗配准将 G2 近似对齐到 G1 的坐标系中。我们将 img1 和 img2 输入到 DUSt3R 中它估计具有旋转和平移的刚性变换。然而G1 和 G2 之间的缩放因子仍然未知。下一步把从 3D 基础模型获得的变换应用回原始 3DGS 模型。该过程涉及一系列转换步骤如图5所示。我们定义坐标系如下对于坐标系 P表示坐标系 P 下的 3DGS 模型 Gi。具体来说Poi 是 3DGS模型的原始坐标系而是像机的坐标系以产生图像img i。溅射模型的原始坐标系是任意构造的表示模型原始坐标系o1到相机坐标系c1的变换。我们的目标是获得到该变换函数直接将G2坐标系变换到G1的坐标系中公式是我们遵循图5中的变换序列。这里和是世界到相机的变换w2c对应于已知的图像img1和img2。两个摄像机位姿之间的变换被表示为它包括旋转、平移和缩放。我们主要关注与DUSt3R的输出的匹配关系。然而尺度是未知的。因此我们有可以对着坐标系看公式公式4是公式3的具体化上面公式中从右往左看是G2原始坐标系world变换到了他的一个相机坐标系c2然后又从c2变换到了G1的一个相机坐标系c1最后从c1变换到了G1的世界坐标系。唯一未知的参数是尺度比。由于两个世界到相机的变换都具有已知的绝对比例因此是两个3DGS模型之间的比例差异。也就是说。在接下来的小节中我们将估计最终的未知参数即G1和G2之间的尺度比。 F. Scale Estimation 在这一步中我们通过比较不同坐标系中同一个pose下的深度图来估计尺度比。深度图可以表示为二维矩阵其中每个元素表示视点(例如照相机)沿视线到场景中一点的距离给定一个相机pose深度图可以从标准的3DGS模型[39]中提取并且也可以在初始粗对准期间由DUSt3R输出。还输出深度图的像素方向置信度图。这里我们将从它们各自的3DGS模型获得的深度图IMG1和IMG2表示为D1D2∈RW×H并且将来自DUST3R的深度图表示为∈RW×H以及置信度图C1C2∈RW×H。这里W和H表示图像宽度和高度。一个关键的细节是因为DUSt3R的性质DUSt3R输出的pointmap、confidence map都是统在同一个坐标系下面的深度位于相同的坐标系中具有相同的尺度。然后尺度不同我们可以根据公式5这样估计G1和G2之间的置信度权重得到尺度比例其中⊗表示矩阵中各个对应元素之间的乘积。通过对尺度比的估计我们得到一个初始变换这个尺度比其实就是坐标系尺度比它大致对齐了G1和G2。我们现在将重点转移到优化训练这个初始变换的路线上。 G. Precise Refinement via Photometric Optimization 在粗略地对齐G1和G2之后我们通过从G1和G2以一种新的姿势C来渲染图像来进一步优化对齐。然后我们最小化渲染图像之间的光度损失并根据我们的变换参数进行优化。我们注意到3DGS模型和渲染的可微性使得基于梯度的优化能够传播回变换参数。使用的损失是 L1 距离用mask标记相同pose下同像素位置来自G1和G2的渲染其中 F 是可微渲染函数可在给定摄像机姿势和 3DGS 模型的情况下生成图像。掩码的 L1 距离 l1masked 给出了由元素级二进制mask的 L1 距离。使用的元素级二进制掩码是 M1⊗M2其中 M1 和 M2 是二进制掩码指示是否在每个像素处渲染了任何内容。我们根据的参数对 L 进行微分给出为。我们使用基于梯度的优化器来最小化损失并执行详细的对齐。 5. EXPERIMENTS coming soon 在本节中我们评估所提出的 PhotoReg 方法在合并两个或多个具有不同重叠级别的高斯 Splatting 模型时的性能。我们在框架中使用的基础模型是 DUSt3R 和 DINOv2。 DUSt3R 从渲染图像中生成粗略的 3D 重建 DINOv2 基于图像中稳健的视觉特征执行特征提取。我们寻求凭经验回答几个主要问题

查看全文

http://www.zqtcl.cn/news/542402/