当前位置：首页 > news >正文

2019做网站需要营业执照吗郑州网站建设公司招聘

news 2025/11/15 8:29:03

2019做网站需要营业执照吗,郑州网站建设公司招聘,珠海建设改革有哪些网站,网站标题替换一、论文研究领域#xff1a; 城市级3D语义分割论文#xff1a;Efficient Urban-scale Point Clouds Segmentationwith BEV Projection清华大学#xff0c;新疆大学2021.9.19论文github论文链接二、论文概要 2.1主要思路提出了城市级3D语义分割新的方法#xff0c;将…一、论文研究领域城市级3D语义分割论文Efficient Urban-scale Point Clouds Segmentationwith BEV Projection清华大学新疆大学2021.9.19论文github论文链接二、论文概要 2.1主要思路提出了城市级3D语义分割新的方法将3D点云语义分割任务转移到2D鸟瞰图分割问题。分为以下三步3D到BEV投影、稀疏BEV图像分割和BEV到3D重新映射。注 BEV Birds Eye View BEV投影是指鸟瞰视角(Birds Eye View,简称BEV)的一种从上方观看对象或场景的视角就像鸟在空中俯视地面一样。在自动驾驶和机器人领域通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示以便更好地进行物体检测、路径规划等。 2.1.1 实现步骤 3D到BEV投影 1、城市规模的点云地图被预先划分成边长小于400米的网格。 2、我们进一步生成了25× 25 m2的正方形放大倍数为20倍。使用滑动窗口来得到BEV投影伪代码如下稀疏BEV图像分割考虑到BEV图像上投影点云的显著稀疏性这将在标记和模型学习中引入严重的噪声因此有必要对投影进行像素级完成特别是对于不同类点周围的内部区域和边缘。在我们的实验中我们迭代地对每个图像中的每个通道进行三次2D最大池化。标签的渐进变化如图4所示。对于从左到右我们呈现原始BEV标签和具有一次/两次/三次最大池化完成的标签。 BEV投影生成的图像设计了一个基于注意力的多模态融合网络有效地融合了RGB和几何细节。与单模态网络相比分割效果取得了一定的提高进一步验证了RGB颜色对分割的意义。 BEV到3D重新映射对于3D重映射我们存储每个投影窗口的绝对x/y坐标并使用主题查询原始大规模点云中的提取位置以获得2D分割输出。对应于相同像素的点将被赋值为与像素相同的类。之后我们能够评估3D语义分割性能。 2.2 主要贡献 1、针对大规模无人机点云数据稀疏、处理负担重的问题设计了一种大规模无人机点云数据预处理方法即将三维点云投影到密集的鸟瞰图上。 2、对于BEV投影生成的图像设计了一个基于注意力的多模态融合网络有效地融合了RGB和几何细节。与单模态网络相比分割效果取得了一定的提高进一步验证了RGB颜色对分割的意义。提出了一种新的方法并设计了一种新的图像分割网络。 2.3 实验表现与其他已发表方法的比较结果。我们使用ResNet-34和HRNet实现了我们的模型这两个模型都在SensatUrban数据集上实现了具有竞争力的平均IoU和整体准确性。三、论文全文基于BEV投影的城市尺度点云高效分割摘要近年来点云分析已经吸引了研究人员的目光而3D语义分割仍然是一个问题。大多数深度点云模型直接在3D点云上进行学习这将受到城市规模数据严重稀疏和极端数据处理负载的影响。为了解决这一挑战我们建议将三维点云转移到密集的鸟瞰图投影。在这种情况下由于类不平衡减少和利用各种2D分割方法的可行性分割任务被简化。我们进一步设计了一个基于注意力的融合网络可以对投影图像进行多模态学习。最后2D输出被重新映射以生成3D语义分割结果。为了证明我们的方法的好处我们在SensatUrban数据集上进行了各种实验其中我们的模型呈现出竞争力的评估结果61.17% mIoU和91.37% OverallAccuracy。我们希望我们的工作可以启发进一步探索点云分析。介绍 3D语义分割是点云学习的关键技术其目的是为每个单独的点数据分配语义标签已广泛应用于自动驾驶[1]虚拟现实[2]3D重建[3]等。虽然深度学习在2D语义分割任务中表现突出但它无法直接处理不规则无序和非结构化的点数据[4]。因此目前有几种方法[5]-[11]将非结构化点转换为某些有效的中间表示例如体素[7][12]和多视图[10][13][14]以利用经典CNN模型处理点云。随着对三维场景理解需求的不断增加提出了越来越多的三维点云数据集。从室内数据集例如S3DIS [15]和ScanNet [16]到道路级数据集例如SemanticKITTI [17]数据集的空间大小也更大。最近的工作[3][18]提出了城市级数据集为大规模数据集的语义分割带来了一些新的挑战。室内数据集例如S3DIS [15]和ScanNet [16]道路级数据集例如SemanticKITTI [17]数据集的空间大小也更大[3][18]提出了城市级数据集与基于LiDAR的数据集不同这些城市规模的点云大多是从无人机摄影测量中获得的这可能导致数据集中的以下特征。首先无人机摄影测量的扫描不均匀扫描区域不集中捕获的图像边缘有散乱的区域。其次重建的点云部分缺失。我们在SensatUrban [3]数据集中观察到这种现象一个典型的例子是在对点云进行可视化后屋顶下没有对应的墙点这使得屋顶似乎悬浮在空中。有趣的是我们发现基于无人机的点云中垂直点的类别重叠率较低例如SensatUrban为2.3%这意味着鸟瞰图是一种合适的投影方法它更简单更有效并且能够最大限度地保留点细节。此外对于投影图像具有更丰富标记的2D像素级数据集可以用于预训练。因此在本文中我们提出了一个BEV投影分割方法来处理城市规模的三维分割问题。我们的主要贡献是 1对城市规模的点云进行点级分析; 2提出了一种基于BEV投影算法的多模态融合分割模型; 3)我们在SensatUrban数据集上对我们的方法进行了评估我们的竞争结果证明了我们设计的有效性。相关工作 A.语义分割通常根据输入网络的点云数据的形式现有的大多数3D语义分割方法可以分为三类基于点、基于3D表示和基于投影。基于点的方法直接处理原始点云其代表方法是PointNet计算开销大。虽然[19][20]对PointNet进行了一些有益的改进但由于这些方法直接处理sprase数据因此仍然难以加速。最近的RandLA-Net [2]引入了随机采样和轻型网络架构大大加快了模型的速度。然而如[21]中所提到的基于点的方法中不可忽视的问题是由低效的随机存储器访问引起的处理sprase数据的大量时间浪费80%这意味着实际上只有少量的时间用于提取特征。此外大的存储器开销也是一个严重的问题。基于3D表示的方法将原始点云数据变换成某些3D表示例如体素和晶格然后利用3D卷积[5]-[8]。然而很难平衡分辨率和内存之间的关系[21][22]。分辨率越低同一网格中的点融合在一起导致点云信息丢失越严重。分辨率越高计算开销和内存使用量越大。此外预处理和后处理步骤需要大量时间[23]。分辨率越低同一网格中的点融合在一起导致点云信息丢失越严重。分辨率越高计算开销和内存使用量越大基于投影的方法利用成熟的2D卷积模型来处理从3D点云投影的图像而不是直接处理点。基于投影的方法包括几个特定的类别如多视图基于球面的方法。多视图方法[10][13][14]将点云投影到多个虚拟相机视图中。例如[10]利用多流CNN来处理从每个视图生成的图像然后融合每个点的不同图像的预测分数[13]定义了旋转相机并提出了Katz投影来选择每个相机角度中的点[14]在不同的相机位置生成深度图像和RGB图像。[24]利用球面投影方法将三维点云转换为图像利用SqueezeSeg网络进行分割并应用条件随机场CRF对分割结果进行优化。[11]提出了基于SqueezeSeg的上下文聚合模块CAM来扩展感受野并且[4]引入了空间自适应卷积SAC来进一步提高分割精度。基于投影的方法包括几个特定的类别: 多视图方法[10][13][14]将点云投影到多个虚拟相机视图中。利用球面投影方法将三维点云转换为图像 B 大规模场景的语义分割在最近的工作中已经提出了几个由无人机拍摄的城市尺度3D点云数据集[3][18][25]其中最大的是SensatUrban [3]数据集其覆盖面积为7.64×106 m2具有30亿个注释点。然而这些大而密集的数据集给语义分割带来了新的挑战。城市尺度3D点云数据集: 最大的是SensatUrban 首先面对海量数据预处理方法的选择例如数据分区、下采样等。意义重大。其次城市规模点云存在类分布不均衡的问题。第三基于无人机的数据集和基于激光雷达的数据集之间的一个显着差异是前者包含RGB特征。对于大规模数据集是否将RGB特征纳入网络以及如何有效地利用RGB特征值得考虑。最近的工作例如RandLA-Net [2]和BAAF-Net [23]利用RGB颜色并取得了积极的分割结果。对于BEV投影生成的图像我们设计了一个基于注意力的多模型融合网络有效地融合了RGB和几何细节。与单模态网络相比分割效果取得了一定的提高进一步验证了RGB颜色对分割的意义。海量数据预处理方法: 数据分区下采样等近年来已经提出了几种针对大型数据集的语义分割算法[2][9][26][27]。例如RandLA-Net [2]引入了随机采样以提高计算和内存的效率TagentConv [9]利用基于切线卷积的U型网络进行大型和密集数据集的语义分割SPGraph [27]提出了一种新的点云表示SPG能够捕获3D点的上下文结构。需要提出更多的大规模点云分割算法。方法 A 问题陈述 3D点云语义分割的目的是为每个单独的点分配语义标签而2D分割是为每个像素分配特定的标签。在某种程度上这两种类型的任务具有相似的目的和解决方案。根据我们上面的陈述可以将3D点云语义分割任务转移到2D鸟瞰图分割问题。主要过程包括鸟瞰图映射和2D多模态分割。 B 鸟瞰投影为什么合理当我们将一个任务转移到另一个任务时它要求输入数据和预期输出的一致性。为了评估我们的想法我们在构建模型之前进行点级分析。我们首先将3D点投影到BEV图上将在下文中详细描述并计算重叠率。在投影中以0.04m为单位进行坐标缩放时约有25.44%的点会丢失。对于那些点密集的地方比例将提高到50%或更多。然而我们发现大多数重叠点属于与顶部点相同的类别。类重叠率低于2.3%mIoU可达93.7%。在这种情况下可以将3D分割任务转移到2D BEV分割。我们的目标是在BEV图像上进行精确识别。 C 鸟瞰图为了优化这种大型点云的数据处理负载我们将整个工作分为三个部分3D到BEV投影、稀疏BEV图像完成和BEV到3D重新映射。前两个部分的处理在下面的算法1中被呈现为伪代码。我们设置一个滑动窗口来处理点并生成BEV图像。在投影之前我们需要初始化参数gscalegsize gstep它控制滑动窗口的缩放大小和移动步骤。对于每个滑动步骤我们通过x/y坐标对点进行排序并从当前BEV投影窗口开始/结束坐标中查询点之后将删除处理过的点以减少后续数据处理量。为了获得最佳的参数我们测试了不同的投影尺度从0.01到0.04的空间重叠率如图3所示。当我们将点云的尺度设置在[0.010.03]时会导致点云不同部分的重叠分布非常接近即城市尺度点云中的点的最小间距在[0.030.05]m以内。此外根据我们的投影图像数量估计合适的窗口长度在[2050]m以内。因此我们将参数设置为gscale 0.05gsize gstep 25。然而我们也建议多尺度多尺寸和多步采样以便在未来的工作或其他类似的任务中更好地训练。对于单个滑动窗口中的点我们通过积分x/y坐标将点映射到像素。这将不可避免地带来值量化的损失但是如果我们在3D重映射中进行相同的过程它不会影响标签检索过程。BEV图使用顶部的点进行更新生成具有颜色和z坐标值的RGB和海拔Alt图像。考虑到BEV图像上投影点云的显著稀疏性这将在标记和模型学习中引入严重的噪声因此有必要对投影进行像素级完成特别是对于不同类点周围的内部区域和边缘。在我们的实验中我们迭代地对每个图像中的每个通道进行三次2D最大池化。标签的渐进变化如图4所示。对于从左到右我们呈现原始BEV标签和具有一次/两次/三次最大池化完成的标签。对于3D重映射我们存储每个投影窗口的绝对x/y坐标并使用主题查询原始大规模点云中的提取位置以获得2D分割输出。对应于相同像素的点将被赋值为与像素相同的类。之后我们能够评估3D语义分割性能。 1、初始化参数gscalegsize gstep它控制滑动窗口的缩放大小和移动步骤合适的窗口长度在[2050]m以内参数设置为gscale 0.05gsize gstep 25 2、通过x/y坐标对点进行排序并从当前BEV投影窗口开始/结束坐标中查询点之后将删除处理过的点以减少后续数据处理量 3、单个滑动窗口中的点我们通过积分x/y坐标将点映射到像素 3D重映射我们存储每个投影窗口的绝对x/y坐标并使用主题查询原始大规模点云中的提取位置以获得2D分割输出。对应于相同像素的点将被赋值为与像素相同的类 D.最大值多模态分割通过BEV投影的高度和RGB图像我们可以利用多模态网络从数据的不同方面进行学习。为了快速开发一个合适的模型我们考虑一个编码器-解码器网络UNet作为我们的基线不仅因为它的流行模型架构而且因为它在修改训练和推理方面的效率。它包括编码器中的4个块和解码器中的5个块其中两个是ResNet-34块最后四层使用转置卷积其余是卷积块。所有卷积块都有一个批量归一化层和一个ReLU层所有内核大小都是3x 3。编码器中的每个块都用虚线链接到解码器中的相应块该虚线将它们的输出连接起来以检索低级特征。通常多模态融合依赖于各层中的特征通信。在此基础上提出了一种灵活的多级融合网络支持不同时间、不同地点的多管道数据融合。熔合层包括若干恒定形状的熔合块。每个块接受来自两个管道的两个相等形状的张量并采用注意力层从连接的特征图中选择关键通道。以这种方式熔合块倾向于丢弃不相关的特征并且熔合在随后的层中容易被激活的那些特征。对于注意力块我们参考我们以前的工作提出了一种用于语义分割的跨通道多模态融合注意块。之后我们添加1x1卷积以降低维度并针对图像特征和融合特征、海拔特征和融合特征重复这样的融合块。重要的是外块保持特征图的恒定形状这意味着我们可以根据需要堆叠具有各种网络形状的无限块。实验 A setup 数据集SensatUrban [3]在英国3个大城市采集包含2847M个点覆盖真实的世界7.64× 106m2的面积是目前最大的3D点云数据集。在获得无人机拍摄的区域图像序列后从这些图像重建SensatUrban点云数据集。它包含13个语义类包括地面、建筑物、交通道路等大类和自行车、铁路、桥梁等小类。在实验中37个点云用于训练6个点云用于测试。每个点包含三维坐标、RGB颜色和语义类的特征。请注意由于缺乏测试集标签我们将训练集随机分为41使用80%的数据进行训练使用20%的数据进行测试。所有测试数据都不用于训练。度量我们将我们的模型与几个使用不同方法例如基于点的方法、基于投影的方法等并且最近出版。选择平均IoUmIoU和总体准确度OA作为评价指标。实施情况我们在训练中使用交叉熵作为损失函数。考虑到不同类间的不平衡性我们使用对数倒数权值来调整学习中的损失。我们将批处理大小设置为8将输入大小设置为投影大小500 x500。我们的模型在两个GPU上训练RTX 3090具有24 G RAM和E5- 2678 v3 CPU。此外我们使用以下软件设置Ubuntu 16.04 64位操作系统Python 3.6gcc5.4.0PyTorch 1.7与CUDA 11.0硬件加速。 B. Results 我们使用三个主干实现了我们的模型UNet和ResNet34Deeplabv3和ResNet101OCRNet和HRNet。最后两个模型被训练以探索在我们的BEV分割框架下的潜在性能。我们在表I中展示了分割结果重新映射到3D点云并在3D中进行评估。与现有的模型相比我们的模型可以实现相当有竞争力的结果在大多数classed和整体performancee在OAmAcc和mIoU。缺点是我们的BEV分割仍然无法识别一些小物体如自行车因为它们在投影图像中占用的像素也非常有限。在未来的工作中融合3D和我们的BEV模型可能会解决这个问题。可视化如图5所示。 CONCLUSION 针对大规模无人机点云数据稀疏、处理负担重的问题设计了一种大规模无人机点云数据预处理方法即将三维点云投影到密集的鸟瞰图上。此外我们还提出了一种基于注意力的多模态融合网络来分割生成的二维图像充分利用RGB颜色和几何信息。我们在SensatUrban数据集上获得了61.17%的mIoU和91.37%的OverallAccuracy测试结果。我们希望我们的工作可以启发大规模的点云语义分割任务。

查看全文

http://www.zqtcl.cn/news/557306/