当前位置: 首页 > news >正文

设计咨询服务合同青岛seo排名收费

设计咨询服务合同,青岛seo排名收费,开发网站,深圳上市公司前言 本文分享“占用网络”方案中#xff0c;来自CVPR2023的VoxFormer#xff0c;它基于视觉实现3D语义场景补全。 使用Deformable Attention从图像数据中#xff0c;预测三维空间中的体素占用情况和类别信息。 VoxFromer是一个两阶段的框架#xff1a; 第一个阶段来自CVPR2023的VoxFormer它基于视觉实现3D语义场景补全。 使用Deformable Attention从图像数据中预测三维空间中的体素占用情况和类别信息。 VoxFromer是一个两阶段的框架 第一个阶段预测每个像素的深度值将像素投影三维空间中2D图像到3D空间的思想。然后预测每个三维网格是否被占用生成稀疏体素特征。最后选择其中是“占用”的体素作为“体素查询特征”进入第二阶段。这个阶段只预测占用情况选择一些值得分析的体素。第二个阶段根据一阶段提议的体素特征生成体素Query使用交叉注意力从3D体素Query到2D图像中查询融合特征的思想然后使用掩码标记与自注意力预测那些“没占用”的网格补全得到完整的体素特征。后面接3D语义场景任务头预测每个三维网格的类别情况。 论文地址VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion 代码地址https://github.com/NVlabs/VoxFormer  一、框架思路 VoxFromer仅通过2D图像不依赖点云数据能预测完整的3D几何形状和语义信息。 它输入图像数据默认是多视角图像数据比如6个相机的。也可以只输入单张图像数据单目相机场景。 第一阶段通过预测图像中每个像素点的深度信息结合相机内外参投影到三维空间中。然后预测每个三维网格是否被占用并选择状态是“占用”的体素得到提议的3D体素Query。这样模型会选择一些值得分析的体素进入下一阶段。第二阶段-1得到的提议的3D体素Query使用交叉注意力3D体素Query到2D图像中查询融合特征生成进一步的3D体素Query。这里体素特征Query表示图像中可见区域生成的是有占用的而不是被遮挡或空的空间第二阶段-2然后使用自注意力类似MAE的掩码预测生成完整的体素特征。基于提议的有占用体素特征预测其它空间的情况得到完整的体素特征 最后输出3D语义场景信息包含体素占用情况和类别信息。 Voxel Queries: 表示体素查询。其中体素是三维空间中的一个立方体单元可以想象为三维像素。 体素查询与注意力机制相结合使模型能够专注于输入数据中的重要部分然后进行提取特征。 VoxFromer的详细的思路流程如下图所示 阶段一 对图像中的每个像素预测其深度值。结合相机内外参投影到三维空间中形成稀疏的3D点。初始化一个体素查询矩阵Q结合稀疏的3D点对每个体素进行二元分类。当网格被占用时预测为1当网格没有被占用时预测为0。图像中可见区域生成的是有占用的而不是被遮挡或空的空间。设定数量Np选择Np个最有可能是占用状态的网格特征组成体素查询Qp。这里选择其中是“占用”的体素作为“体素查询特征”进入第二阶段。这个阶段只预测占用情况选择一些值得分析的体素。 阶段二 使用可变形交叉注意力根据体素查询Qp融合对应的图像特征。3D体素Query到2D图像中查询融合特征。然后使用自注意力类似MAE的掩码预测生成完整的体素特征。基于提议的有占用体素特征预测其它空间的情况得到完整的体素特征。 Mask Tokens 掩码标记与体素查询一起使用以帮助模型预测那些在点云数据中缺失但对于理解整体场景很重要的体素。 每个掩码标记都是一个可学习的向量代表一个缺失体素的存在而位置嵌入positional embeddings则确保掩码标记能够了解它们在3D空间中的位置。 二、核心内容——第一阶段预测深度值、预测网格是否被占用 第一个阶段主要包括预测深度值、预测网格是否被占用。 一阶段详细步骤 深度估计从给定的二维图像中使用深度估计模型来预测每个像素点的深度。结果是一个深度图其中每个像素的值代表从相机到场景中相应点的距离。 体素化利用这些深度信息结合相机内外参投影到三维空间的体素网格。每个体素是三维空间中的一个立方体区域类似于二维图像中的像素点。 占用决策深度修正对于每个体素根据其内部是否有从深度图中推导出的点来决定其占用状态。如果一个体素在其对应的深度图区域内有深度信息即至少有一个像素点的深度信息指向该体素的空间区域则该体素被标记为“占用”通常用1表示。如果没有深度信息指向该体素它被标记为“空闲”通常用0表示。 二值化占用图通过这种方式可以生成一个二值化的占用图这是一个三维网格其中每个体素的值指示该区域是否被占用。 查询提案接下来系统会选择这些“占用”的体素进行进一步的处理如特征提取或语义分割在本文中是输入到第二阶段。在Class-Agnostic Query Proposal阶段模型不区分体素类别而是根据它们是否包含足够的信息即是否占用来选择哪些体素值得进一步分析。 有了每个像素的深度值后可以利用相机的内外参来将图像反投影至3D点云空间 通过这种方法生成的3D点云在远距离区域特别是地平线附近的质量非常低原因在于这些区域的深度极不一致。 此外只有极少数像素决定了大片区域的深度导致这些区域的点云相对稀疏。 为什么要做深度校正也就是外什么还有用一个模型来预测每个网格是否占用 深度修正背景 在场景的远处如地平线区域因为在这些区域相机捕捉到的深度信息往往因为距离过远而不准确或者分辨率不足。这种情况下直接从图像像素得到的深度数据是不可靠的需要进行校正。地平线区域进行深度估计的问题通常是因为在这些远距离处深度信息变得非常稀疏和不连续。在普通的二维图像中地平线附近的物体通常比较小因此在点云数据中它们可能只对应非常少的点甚至可能没有点。 解决方案是使用一个模型来预测占用图这是一个在较低空间分辨率下的二进制体素网格。每个体素表示一小块三维空间。 如果至少有一个点在该体素的空间范围内则该体素在占用图中被标记为1表示该区域被占用如果没有点则标记为0表示未被占用。 这种占用信息有助于对深度信息进行修正因为它提供了场景中哪些区域是空的哪些是有物体的更明确的信息。 深度修正的思路流程 使用深度估计模型从图像获取初步的深度信息。将这个初步深度信息转换成一个低分辨率的体素网格即占用图。通过检查哪些体素被占用至少有一个点哪些没有被占用没有点来校正深度信息。这样可以修正因为分辨率不足或其他原因造成的误差。 详细步骤 生成初步深度图首先利用深度估计模型比如基于单目或立体视觉的深度估计网络从二维图像中生成一个初步的深度图。这个深度图在远处尤其是地平线区域可能会存在较大的误差。 构建占用图随后将初步深度图转换为一个三维体素网格。这个过程中每个体素根据是否存在对应的深度点被标记为占用1或未占用0。由于地平线区域的深度信息可能不连续所以此时的体素网格是低分辨率的也就是说每个体素覆盖的空间较大可以包含较多的潜在深度信息。 低分辨率修正在低分辨率的占用图中可以辨别出哪些区域是连续被占用的哪些区域是空的。由于每个体素较大即使远处的深度点非常稀疏也更可能被检测到占用。然后可以对那些在初步深度图中看起来是空的但在占用图中被标记为占用的区域进行深度修正。 插值和平滑在确认了哪些大体素内的空间确实存在物体后可以在这些区域应用插值或平滑技术来估计更准确的深度值。例如如果一个大体素被标记为占用而其内部的小体素深度值不连续可以通过插值周围小体素的深度值来估计这些小体素的深度使深度信息在大体素内部更加连续。 高分辨率细化最后使用这个经过低分辨率修正的占用图作为一个指导可以在更高分辨率的深度图上进行细化进一步提高深度估计的准确性。这可以通过在高分辨率深度图上应用从占用图中得到的占用信息来完成进而优化整个场景的深度估计。 三、核心内容——第二阶段交叉注意力、自注意力、生成完整的体素特征 在第一阶段系统已经生成了体素查询提案特征表示这些体素值得进一步分析。 第二阶段是关于如何利用这些体素查询提案来提取丰富的图像特征并对它们进行分割区分不同类别的物体。 第二阶段-1得到的提议的3D体素Query使用交叉注意力3D体素Query到2D图像中查询融合特征生成进一步的3D体素Query。这里体素特征Query表示图像中可见区域生成的是有占用的而不是被遮挡或空的空间第二阶段-2然后使用自注意力类似MAE的掩码预测生成完整的体素特征。基于提议的有占用体素特征预测其它空间的情况得到完整的体素特征 首先使用ResNet以及FPN提取多尺度图像特征。使用可变形交叉注意力根据体素查询Qp融合对应的图像特征。3D体素Query到2D图像中查询融合特征。 然后使用自注意力类似MAE的掩码预测生成完整的体素特征。基于提议的有占用体素特征预测其它空间的情况得到完整的体素特征。 最后然后使用VoxFormeHead得到3D栅格预测其中Attention均采用Deformable Attention。 体素Query与图像特征的Cross Attention通过将Query栅格的坐标投影到图像上使用投影点作为Deformable Attention的参考点并在这些参考点附近采样图像特征作为Value进行处理。 将每个查询网格的坐标投影到图像上以这些投影点作为参考点。 然后通过可变形注意力机制在参考点周围采样图像特征这些特征随后被用作Transformer的Value。对于投影到多个图像帧的网格将各帧的注意力输出进行平均以合成最终特征。 体素Query栅格与所有栅格的Self Attention处理整个空间的栅格特征对于非Query栅格使用mask token进行替代并以栅格中心作为Deformable Attention的参考点。 四、VoxFormer实现细节 在第一阶段中 深度估计这一步骤使用深度感知网络如MobileStereoNet或MSNet3D从单幅图像或一对立体图像中估计出每个像素点的深度信息。此信息随后利用相机内部和外部参数被转换成三维空间中的点云数据这通常是为了与现实世界的物理尺度对齐。 深度修正直接从深度估计得到的点云数据往往包含噪声为了提高数据质量引入了基于3D网格的占据概率预测网络使用了激光雷达SSC方法LMSCNet。该网络处理经过栅格化将连续空间量化为离散的网格的点云数据输出更低分辨率的占据预测以减少噪声和增强数据的可用性。 这个流程中输入为三维栅格每个体素voxel记录了0-1的占据情况。处理过程首先通过permute操作将z轴的维度转换到图像的通道维度这样三维数据被转换为类似于二维图像的形式。接下来利用类似于图像处理中的UNet架构来处理这个“二维化”的数据从而得到二维特征图。最后使用一个专门的头部head网络将这个二维特征图再转换回三维占据栅格。这个过程有效地将3D空间数据处理流程与传统的2D图像处理技术相结合以实现高效的特征提取和空间理解。 查询网格生成在占据概率预测步骤之后所有被预测为占据的栅格都被用作查询网格。这些查询网格将用于后续的3D视觉处理任务如语义分割或对象识别。 在第二阶段中 可变形交叉注意力Deformable Cross Attention它专注于将查询网格坐标投影到图像上使用这些投影点作为采集图像特征的参考点并通过可变形注意力机制来实现。对每一帧图像都进行此操作并将注意力输出进行平均以获得全面的特征表示。 可变形自注意力Deformable Self Attention采用所有网格点的特征包括由mask token代表的非查询点进行注意力处理以网格中心作为参考点。 其中Attention均采用Deformable Attention。 损失函数 在模型训练过程中分两个阶段应用了不同的损失函数。 第一阶段 - 这一阶段主要使用交叉熵损失来评估栅格是否正确地被识别为占用。这个阶段的重点是识别哪些体素是重要的应该被后续处理阶段进一步分析。 第二阶段 - 这一阶段的损失函数更复杂包括两个部分 一是用于评估语义类别识别准确性的交叉熵损失 二是MonoScene提出的Scene-Class Affinity Loss这个损失函数专注于优化模型对场景中不同类别间关系的理解从而增强模型对整个场景的认知能力。 五、背景——语义场景补全(SSCSemantic Scene Completion) 在自动驾驶汽车感知中从视觉图像进行完整的3D场景理解是一个重要而具有挑战性的任务。 这个过程受限于传感器的视野和物体遮挡问题导致获取准确和完整的3D信息变得困难。 为了解决这些问题语义场景补全SSC技术被提出它旨在从有限的观测中联合推断出场景的完整几何形状和语义信息。 SSC的挑战在于需要同时处理可见区域的场景重建和遮挡区域的场景推断。 目前一些基于视觉的SSC方法例如MonoScene尝试通过将2D图像特征投影到3D空间来解决这个问题。但这种方法可能会把可见区域的2D特征错误地分配给空的或被遮挡的体素从而产生歧义影响后续的几何补全和语义分割任务的性能。 六、模型效果 VoxFormer在SemanticKITTI数据集上进行验证该数据集提供了KITTI里程计基准测试中每个激光雷达扫描的密集语义注释共包含22个户外驾驶场景。 SemanticKITTI SSC基准测试关注车前51.2米、左右两侧各25.6米、高6.4米的体积区域。这个体积的体素化导致了一组尺寸为256×256×32的3D体素网格因为每个体素的大小为0.2米×0.2米×0.2米。体素网格被标记为20个类别19个语义类和1个空类。关于目标输出SemanticKITTI通过连续注册的语义点云的体素化提供了真实的语义体素网格。对于SSC模型的稀疏输入可以是单个体素化的激光雷达扫描或RGB图像。 对基于相机的语义场景补全SSC方法进行了定量比较 性能在三种不同体积的空间分别是12.8×12.8×6.4立方米、25.6×25.6×6.4立方米和51.2×51.2×6.4立方米内进行评估。前两个体积是为了评估在安全关键的邻近位置的SSC性能。 性能最佳的三种方法分别用红色、绿色和蓝色标记。 VoxFormer和MonoScene在SemanticKITTI hidden test上的定量结果。 VoxFormer在与最新激光雷达基础的语义场景补全SSC方法的定量比较中即使在近距离范围内其表现也与一些激光雷达基础的方法相当。 在单目深度的情况下VoxFormer-S在几何12.8米、25.6米和51.2米范围和语义12.8米和25.6米范围方面的表现优于MonoScene。 VoxFormer在大规模自动驾驶场景中测试效果。相对下VoxFormer在树干、电线杆等小物体的补全方面表现较好。 分享完成~
http://www.zqtcl.cn/news/302029/

相关文章:

  • 北京网站维护公司专业外贸网站建设_诚信_青岛
  • 网站自己做还是用程序制作网站一般使用的软件有哪些
  • 晨雷文化传媒网站建设济南互联网品牌设计
  • 怎样给自己的网站做防红连接梵客装饰公司官网
  • 甘肃省城乡与住房建设厅网站纪检网站建设动态主题
  • 关于做好全国网站建设网站建设哪个好
  • 灵犀科技网站建设企业建设网站作用
  • 做网站架构图无版权图片网站
  • 赌场需要网站维护吗通过服务推广网站的案例
  • 阿里云网站空间网站建设犭金手指六六壹柒
  • 网站排名软件包年农业网站开发
  • 建设信用卡网银网站crm客户关系管理论文
  • 阿里巴巴网站的搜索引擎优化案例软件开发收费价目表
  • 企业网站建设之域名篇wordpress 文章居中
  • 萍乡网站建设行吗南康建设局官方网站
  • 一键部署wordpress爱站seo工具
  • 大连网站建设服务做进料加工在哪个网站上做
  • 南昌行业网站建设网站版权信息修改
  • 百度网站关键词排名助手低成本做网站 白之家
  • 怎么查询网站是谁做的部队网站建设报告
  • 租房网站开发专业网站建设品牌策划方案
  • 电子商务网站建设方案书软件开发工具图片
  • 案例建网站宿松网站建设公司
  • 秦皇岛网站开发wordpress免费国内主题
  • seo网站推广推荐阳江房管局查询房产信息网
  • php服装商城网站建设个人网站免费空间
  • 做内贸注册什么网站广州市建设交易中心网站
  • 点样用外网访问自己做的网站北京市网站设计公司网址
  • 用备案的网站做违法网站wordpress个性404
  • 中国制造网官方网站下载安装我国做民宿的网站