济南网站建设第六网建,抢注域名网站,企业如何进行seo,软件开发公司的优势来源ICCV2023
0、摘要
LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法#xff0c;因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中#xff0c;我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到#xff0c;“多对一”…来源ICCV2023
0、摘要
LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到“多对一”的映射语义不连贯性形状变形的可能障碍对有效的学习从距离视图投影。我们提出的RangeFormer -一个全周期的框架包括跨网络架构数据增强和后处理的新颖设计-更好地处理学习和处理LiDAR点云从范围的角度。我们进一步介绍了一个可扩展的训练范围视图Scalable Training from Range view STR的策略训练任意低分辨率的2D范围图像同时仍然保持令人满意的3D分割精度。我们表明第一次范围视图方法是能够超越点体素和多视图融合同行竞争的LiDAR语义和全景分割基准即SemanticKITTI、nuScenes和ScribbleKITTI。
1. Introduction LiDAR点云具有独特的特性。作为现实世界场景的直接反映它们往往是多样和无序的从而给学习带来额外的困难[2742]。不可避免地高效和有效的LiDAR点云处理需要良好的表示[67]。 尽管存在如Tab.1主流方法主要基于点视图[3364]体素视图[15638729]和多视图融合[437554]。然而这些方法需要计算密集的邻域搜索[53]3D卷积运算[45]或多分支网络[225]这些方法在训练和推理阶段通常效率低下。基于投影的表示如范围视图[7148]和鸟瞰视图[8386]是更容易处理的选项。3D到2D光栅化和成熟的2D算子为快速和可扩展的车载LiDAR感知打开了大门[487467]。不幸的是当前基于投影的方法[851383]的分割精度仍然远远落后于趋势[777579]。 从投影LiDAR扫描中学习的挑战来自LiDAR数据表示的潜在有害因素[48]。如图1、距离视图投影常常遇到几个困难包括1由于水平角分辨率有限而引起的相邻点的“多对一”冲突; 2由于3D稀疏性和传感器中断导致的距离图像中的“洞”;以及3光栅化过程中的潜在形状变形。虽然这些问题在范围视图学习中是普遍存在的但以前的作品几乎没有考虑解决它们。源于图像分割社区[82]现有技术广泛采用全卷积网络FCN[468]用于范围视图LiDAR分割[48851336]。有限的接受领域的FCNs不能直接模拟长期的依赖性因此在处理上述障碍是不太有效的。 在这项工作中我们寻求一种替代目前的范围视图激光雷达分割模型。受Vision TransformerViT及其后续产品[1970734460]的成功启发我们设计了一个名为RangeFormer的新框架以更好地处理距离视图中LiDAR点云的学习和处理。我们将范围视图网格的分割公式化为seq 2seq问题并采用标准的自我注意模块[69]以“全局”方式捕获丰富的上下文信息这在FCN中经常被省略[48113]。然后利用这种全局感知提取的分层特征被馈送到多层感知MLP中以进行解码。以这种方式距离图像中的每个点都能够建立与其他点的交互-无论是近还是远以及有效还是空-并且进一步导致从LiDAR距离视图进行更有效的表示学习。 值得注意的是这种架构虽然简单但仍然存在一些困难。第一个问题与数据多样性有关。流行的LiDAR分割数据集[721562]包含数万个用于训练的LiDAR扫描。然而这些扫描在以顺序方式收集它们的意义上是不太多样的。这阻碍了基于Transformer的架构的训练因为它们通常依赖于足够的样本和强大的数据增强[19]。为了更好地处理这个问题我们设计了一个增强组合是为范围视图量身定制的。受最近的3D增强技术[863749]的启发我们通过行混合视图移动复制粘贴和网格填充来操纵范围视图网格。正如我们将在以下部分中展示的那样这些轻量级操作可以显著提高SoTA范围视图方法的性能。 第二个问题来自数据后处理。先前的工作采用CRF [71]或k-NN [48]来平滑/推断范围视图预测。然而通常很难在无监督方式下找到3D标签的欠平滑和过平滑之间的良好平衡[35]。相比之下我们设计了一种监督后处理方法首先将整个LiDAR点云子采样为等间隔的“子云”然后推断其语义这从整体上降低了混叠范围视图网格的不确定性。 为了进一步减少范围视图学习的开销我们提出了STR -一个可扩展的范围视图训练范例。STR首先将整个LiDAR扫描沿方位方向沿着“划分”为多个组然后“征服”每个组。这将高水平分辨率的距离图像转换为低分辨率的距离图像的堆叠同时可以更好地保持最佳可能的粒度以缓解“多对一”的冲突。经验上我们发现STR有助于降低训练过程中的复杂性而不会牺牲太多的收敛速度和分割精度。 在现有的基准上从LiDAR分割精度和效率方面展示了RangeFormer和STR的优势。具体而言我们在SemanticKITTI [5]上实现了73.3%的mIoU和64.2%的PQ显著超过了先前的范围视图方法[8513]也优于基于SoTA融合的方法[773179]。我们还在nuScenes [21]稀疏点云和ScribbleKITTI [68]弱监督数据集上建立了优势这验证了我们的可扩展性。虽然更有效但我们的方法比最近的体素[8763]和融合[7577]方法快2倍到5倍并且可以以传感器帧速率运行。
2. Related Work
2.1 LiDAR Representation LiDAR传感器被设计为捕获高保真3D结构信息该信息可以通过各种形式表示即原始点[525364]、范围视图[3272741]、鸟瞰视图BEV[83]、体素[4515877910]和多视图融合[437577]如表1中所总结。1.点和稀疏体素方法是流行的但具有ON · d的复杂度其中N是点数通常在105的数量级[67]。BEV提供了一种有效的表示但仅产生低于标准的性能[9]。至于基于融合的方法它们通常包含多个网络这些网络太重无法产生合理的训练开销和推理延迟[547961]。在所有表示中范围视图是直接反映LiDAR采样过程的视图[652066]。因此我们专注于这种模态以进一步拥抱其紧凑性和丰富的语义/结构线索。
2.2 Architecture 以前的范围视图方法建立在成熟的FCN结构上[467172743]。RangeNet [48]提出了一种基于DarkNet [56]的编码器-解码器FCN。SalsaNext [17]使用扩张的卷积来进一步扩大感受野。Lite-HDSeg [55]提出采用谐波卷积来减少计算开销。EfficientLPS [58]提出了一个邻近卷积模块来利用范围图像中的邻域点。FIDNet [85]和CENet [13]将编码器切换到ResNet并用简单的插值替换解码器。与使用FCNs相比我们建立RangeFormer自我关注并展示了在范围视图学习中进行远程依赖建模的潜力和优势。
2.3 Augmentation 大多数3D数据增强技术是以对象为中心的[81115739]因此不能推广到场景。Panoptic-PolarNet [86]在训练过程中对稀有实例点进行过采样。Mix 3D [49]通过从一个场景到另一个场景补充点来提出上下文外混合。MaskRange [26]设计了一个加权的粘贴下降增强以减轻过拟合和改善类平衡。LaserMix [37]提出沿着倾斜轴混合标记和未标记的LiDAR扫描以实现有效的半监督学习。在这项工作中我们提出了一种新颖的轻量级增强组合专为范围视图学习结合混合移动工会和复制粘贴操作直接在栅格化的网格同时仍然保持场景的结构一致性。
2.4 Post-Processing
尽管它是距离视图LiDAR分割的不可或缺的模块但先前的工作几乎没有考虑改进后处理过程[67]。大多数作品遵循CRF [71]或k-NN [48]来平滑或推断冲突点的语义。最近赵等。提出了另一种名为NLA的无监督方法用于最近标签分配[85]。我们通过从全点云创建“子云”并推断每个子集的标签以监督的方式解决这个问题这直接减少了信息丢失并有助于缓解“多对一”问题。
3. Technical Approach 在本节中我们首先回顾范围视图光栅化的细节第3.1节为了更好地解决距离视图学习中的障碍我们引入了RangeFormer3.2)和STRSec.3.3)其分别强调可扩展LiDAR分割的有效性和效率。
3.1. Preliminaries
安装在车顶上的自我车辆如图所示。1旋转LiDAR传感器以预定义角度发射各向同性激光束并通过扫描周期中的时间测量来感知周围环境的位置和反射强度。具体地每个LiDAR扫描在单个扫描周期中捕获并返回N个点其中扫描中的每个点pn由笛卡尔坐标。
光栅化。对于给定的LiDAR点云我们将该扫描内的点光栅化为2D圆柱投影Ruv也称为范围图像其中H和W分别是高度和宽度。每个点pn的光栅化过程可以公式化如下 其中unvn表示距离图像Ruv中的点pn的网格坐标; pd n ppxn2 py n2 pz n2是点与LiDAR传感器自我车辆之间的深度; ξ | ϕup|的|向下倾斜|表示传感器的垂直视场FOV并且向上和向下分别是向上和向下方向的倾斜角。请注意H通常由LiDAR传感器的光束编号预定义而W可以根据要求设置。(该操作很常见把点云映射到一个柱状平面)
最终的距离图像由六个光栅化特征嵌入组成即坐标pxpypz、深度pd、强度pi和存在pe指示网格是否被有效点占据。范围语义标签yuv∈ RHW-其从3D中的每点标签光栅化-与Ruv共享相同的光栅化索引和分辨率。3D分割问题现在变成了2D问题并且范围图像中的网格预测然后可以以Eq1反映射。(一般channel是5这里多增加了一个是否占据应该是前文有提到空洞)
3.2. RangeFormer: A Full-Cycle Framework 如前所述在图1的距离视图表示中存在潜在的有害因素。Eq.(1)的一对一映射通通常不成立因为H ×W远小于N。现有技术[48213]采用HW64512来对每个约120k个点的激光雷达扫描进行光栅扫描[5]导致超过70%的信息损失2。深度图像中有限的水平角分辨率和大量的空网格会给模型训练带来额外的困难如形状变形、语义不一致等。 3.2.1 Architecture.
为了追求更大的感受野和更长的依赖建模我们设计了一个基于自我注意的网络包括标准的Transformer块和MLP头如图所示2.给定一批光栅化的距离图像Ruv由三层MLP层组成的距离嵌入模块REM首先将网格中的每个点映射到更高维度的嵌入。这与PointNet类似[52]。接下来我们将F0划分为大小为3 × 3的重叠面片并将它们送入Transformer块。类似于PVT [70]我们设计了一个金字塔结构来促进多尺度特征融合分别为四个阶段产生{F1F2F3F4}下采样因子为124和8。每个阶段由自定义数量的Transformer块组成每个块包括两个模块。
1)多头自注意[69]作为主要的计算瓶颈可以公式化为
其中headi AttentionQWQ iKWK iVWV i表示Attention σQK_dheadV的自注意操作; σ表示softmaxdhead是每个头的尺寸; WQ、WK、WV和WO是查询Q、键K、值V和输出O的权重矩阵。如[70]中所建议的K和V的序列长度进一步减少因子R以保存计算开销。
2)前馈网络FFN由MLP和激活组成
其中R表示剩余连接[28]。与ViT [23]不同我们放弃了显式的位置嵌入而是直接将其合并到特征嵌入中。如[73]中所介绍的这可以通过在FFN中添加一个具有零填充的3 × 3卷积来实现。
3.2.2 Semantic Head
为了避免解码中的繁重计算我们采用简单的MLP作为分割头。在检索了四个阶段的所有特征后我们首先统一了它们的维度。这通过两个步骤实现1信道统一其中具有嵌入大小的每个Fi经由一个MLP层统一。2)空间统一其中来自最后三个阶段的Fi通过简单的双线性插值被调整大小为范围嵌入大小H × W。因此阶段i的解码过程为 如[85]中所证明的范围视图网格的双线性插值等效于PointNet [53]中的距离插值具有四个邻居。在这里前一种操作是更好的选择因为它完全没有参数。最后我们将四个Hi连接在一起并将其馈送到另外两个MLP层中其中信道维度逐渐映射到d_{cls}即类数以形成类概率分布。此外我们为每个Hi添加一个额外的MLP层作为辅助磁头。在训练期间分别监督来自主头和四个辅助头的预测。至于推理我们只保留主分割头丢弃辅助头。
所以有跳跃连接吗图中似乎没有但是描述有四个辅助分割头 主分割头
3.2.3 Panoptic Head 类似于Panoptic-PolarNet [86]我们在RangeFormer之上添加了一个panoptic头来估计实例中心和偏移称为Panoptic-RangeFormer。由于我们以自下而上的方式解决这个问题因此事物类的语义预测被用作前景掩码来形成3D中的实例组。接下来我们通过预测XY平面上每个点的中心热图[12]和偏移量来进行2D类无关实例分组。基于[86]上述两个方面的预测可以通过多数投票进行融合。正如我们将在实验中展示的那样RangeFormer在语义学习方面的优势进一步产生了更好的全景分割性能。
3.2.4 RangeAug 数据增强通常有助于模型学习更一般的表示从而提高准确性和鲁棒性。LiDAR分割中的现有技术在点级进行一系列增强[87]即全局旋转、抖动、翻转和随机丢弃我们将其称为“常见”增强。为了更好地包含范围视图表示的丰富语义和结构线索我们提出了一个增强组合包括以下四个操作。
RangeMix 其混合了沿倾角和方位角θ方向的两个沿着扫描。这可以被解释为切换两个范围图像的某些行。在计算当前扫描和随机采样扫描的ϕ和θ之后我们然后将点分成kmix相等的跨度倾斜范围即不同的混合策略。然后切换来自两次扫描的相同倾斜范围中的对应点。在我们的实验中我们从组合中设计混合策略kmix从列表中随机抽样[23456]。
个人理解是要么沿着垂直要么沿着水平将图像分成n份然后两次扫面中随机交换一份
RangeUnion 其用来自另一个扫描的网格填充一个扫描的空网格。由于3D中的稀疏性和潜在的传感器中断即使在光栅化之后也有大量的网格是空的。因此我们使用存在嵌入pe来搜索和填充这些空白网格这进一步丰富了距离图像的实际容量。给定一定数量的N空范围视图网格我们随机选择k*N候选网格进行点填充其中k设置为50%。(这个空洞填充的是什么数据呢)
RangePaste 其在距离图像中的对应位置处将尾部类从一个扫描复制到另一个扫描。这促进了稀有类的学习并且还在投影中保持对象的空间布局。随机采样扫描的地面实况语义标签用于创建粘贴蒙版。要粘贴的类是那些在“tail”分布中的类它形成了一个语义类列表sem类。在索引稀有类的点之后我们将它们粘贴到当前扫描中同时保持范围图像中的相应位置。把不常见的类单独复制出来到别的scan上
RangeShift 其沿方位角方向θ arctanpy/px沿着滑动扫描以改变全局位置嵌入。这对应于使用kshift行沿行方向沿着移动范围视图网格。在我们的实验中kshift是从W 4到3 W 4的范围内随机采样的。这四个增强是为范围视图量身定制的可以在数据加载过程中实时操作而不会在训练过程中增加额外的开销。正如我们将在下一节中展示的那样它们在提高范围视图分割模型的性能方面发挥着至关重要的作用。整体向左平移一定角度
3.2.5RangePost 广泛使用的k-NN [48]以无监督的方式为边界附近的点投票和分配标签无法具体处理“多对一”冲突。因此我们以监督的方式处理这一问题。我们首先将整个点云子采样为等间隔的“子云”。由于相邻点属于同一类的可能性很高因此这些“子云”共享非常相似的语义。接下来我们将这些子集堆叠并馈送到网络。在获得预测后我们将它们缝合回原始位置。对于每次扫描这将自动为在光栅化过程中合并的点分配标签只需一次向前传递这直接减少了“多对一”映射造成的信息丢失。最后可以将先前的后处理技术[4885]应用于这些新的预测以进一步增强重新光栅化过程。
3.3. STR: Scalable Training from Range View 为了追求更好的训练效率现有技术采用低水平角分辨率即在等式中W的较小值。(1)用于范围图像光栅化[482]。这不可避免地加剧了“多对一”的冲突导致更严重的形状扭曲并导致低于标准的性能。
3.3.1 2D 3D Occupancy.
我们不是直接为Ruv分配小W而是首先查找最佳可能选项。我们发现在激光雷达扫描中的点的数量和范围图像的期望容量之间的“占用权衡”。如图3、常规选择即512、1024和2048不是最佳的。两条线的交叉指示宽度1920的范围图像倾向于是信息量最大的表示。然而这种配置不可避免地消耗比传统使用的512或1024分辨率多得多的存储器并且进一步增加了训练和推理开销。
3.3.2 Multi-View Partition 为了在追求效率的同时保持W的相对高的分辨率我们提出了一种“分而治之”的学习范式。具体来说我们首先基于每个点的唯一方位角将LiDAR扫描中的点划分为多个组即θi arctanpy i /px i。这将构成Z个不重叠的“意见”的完整的360度全景范围内的看法如图4所示其中Z是超参数并确定要分裂的组的总数。接下来将以高水平分辨率分别对每组中的点进行栅格化以缓解“多对一”和变形问题。以这种方式距离图像的实际水平训练分辨率被放宽Z倍即而每个“视图”中的范围视图投影的粒度网格的数量被完美地保持。意思是分成Z个块 3.3.3 Training Inference 在训练过程中对于每次LiDAR扫描我们只随机选择一个Z点组进行光栅化。也就是说模型将在每一步使用一批随机抽样的“视图”进行训练。在推理过程中我们对给定扫描的所有组进行光栅扫描并沿批次维度沿着堆叠范围图像。所有的“视图”现在都可以在一个过程中推断出来然后将预测结果包装起来形成完整的扫描。尽管是一个经验的设计我们发现这个STR范式在训练过程中具有高度的可扩展性。来自多个“视图”的训练的收敛率倾向于与传统的训练范例一致即STR可以使用相同的迭代次数获得有竞争力的结果而内存消耗现在已经减少到只有1/Z这解放了小内存GPU的使用用于训练。
4. Experimental Analysis
4.1. Settings
4.1.1 Benchmarks
我们在三个标准的LiDAR分割数据集上进行实验。SemanticKITTI [5]提供了22个序列和19个语义类由64束激光雷达传感器捕获。序列00至10不包括08、08和11至21分别用于训练、验证和测试。nuScenes [21]由从波士顿和新加坡收集的1000个驾驶场景组成由于使用了32束传感器这些场景较为稀疏。将相似类和不常见类合并后采用16类。ScribbleKITTI [68]与[5]共享完全相同的数据配置但用线条涂鸦进行了弱注释这对应于训练期间可用的约8.06%的语义标签。
4.1.2 Evaluation Metrics 按照标准实践我们报告了类别i的交集IoU和所有类别的平均得分mIoU其中IoUi TPi TPiFPiFNi。TPi、FPi和FNi是真阳性、假阳性和假阴性。对于全景分割模型通过全景质量PQ进行测量[34] 它包括分割质量SQ和识别质量RQ。我们还报告了事物和东西类的单独得分即PQTh、SQTh、RQTh和PQSt、SQSt、RQSt。通过将每个填充类的PQ交换为其IoU然后对所有类进行平均来定义PQ† [51]。
4.1.3 Network Configurations 在距离视图光栅化之后尺寸为6 ×H ×W的输入Ruv首先被馈送到REM中用于距离视图点嵌入。它由三个MLP层组成分别将Ruv的嵌入dim从6映射到64、128和128并使用批范数和GELU激活。REM的输出大小为128 × H × W用作Transformer模块的输入。具体地对于四个阶段中的每一个补丁嵌入层将大小为Hemed、Wembed的输入划分为3 × 3补丁其中重叠步幅等于1对于第一阶段和2对于最后三个阶段。在重叠补丁嵌入之后使用标准多头注意操作处理补丁如[197073]中所述。我们保留使用残余连接和层规范化Add Norm的默认设置。四个阶段中的每一个的头的数量是[3463]。从不同阶段提取的分层特征被存储并用于解码。具体地四个阶段中的每一个产生空间大小为[HWH 2W 2H 4W 4H 8W 8]的特征其中通道维度为[128128320512]。如前所述我们执行两个统一步骤来统一不同特征图的通道和空间大小。我们首先将它们的通道尺寸映射到256即[128HW] → [256HW][128H 2W 2 ] → [256H 2W 2 ][320H 4W 4 ] → [256H 4W 4 ][512H 8W 8 ] → [256H 8W 8 ]然后我们将四个特征图插值到H ×W的空间大小。在RangeAug中进行四次扩增的概率设置为[0.90.20.91.0]。对于RangePost我们将整个扫描分为三个“子云”用于2D到3D的重新光栅化。
4.1.4 Implementation Details
按照常规设置[4813]我们在SemanticKITTI [5]上进行了Wtrain 51210242048的实验在nuScenes [21]上进行了Wtrain 1920的实验。我们使用AdamW优化器[47]和OneCycle调度器[59]其中lr 1 e-3。对于STR训练我们首先将点划分为5个和2个视图然后分别将它们光栅化为SemanticKITTI [5]和nuScenes [21]的大小为64×1920Wtrain 384和32×960Wtrain 480的范围图像。模型在Cityscapes [16]上预训练20个epoch然后分别在SemanticKITTI [5]和ScribbleKITTI [68]上训练60个epoch在nuScenes [21]上训练100个epoch批量大小为32。与[5513]类似我们包括交叉熵骰子损失Lovazz-Softmax损失[6]和边界损失[55]来监督模型训练。所有模型都可以在单个NVIDIA A100/V100 GPU上训练约32小时。
4.2. Comparative Study
4.2.1 Semantic Segmentation
首先我们将所提出的RangeFormer与SemanticKITTI [5]上的13种先验和SoTA距离视图LiDAR分割方法进行比较见表1。2的情况。在传统的512、1024和2048设置中我们观察到比SoTA方法CENet [13]提高了9.3%、9.8%和8.6%的mIoU比MaskRange [26]高7.2%的mIoU。这种优势是普遍的几乎所有的类尤其是明显的动态和小型的自行车和摩托车。在选项卡中。3.进一步比较了RangeFormer与其他模态的11种方法。我们可以看到当前的趋势有利于基于融合的方法这些方法通常将点视图和体素视图联合收割机结合起来[3114]。虽然只使用范围视图RangeFormer取得了迄今为止最好的成绩;它超过最好的基于融合的方法2DPASS [77] 0.4% mIoU和最好的仅体素的方法GSTK [79] 2.9% mIoU。类似的观察也适用于nuScenes [21]见表1。五。 4.2.2 STR Paradigm
从Tab的最后三行可以看出。2在STR范式Wtrain 384下FIDNet [85]和CENet [13]与其高分辨率Wtrain 2048版本相比取得了更好的分数。RangeFormer使用STR实现了72.2%的mIoU这比排行榜上的大多数方法都要好参见表1。3)同时比高训练分辨率快13.5%即2048选项参见选项卡。5)节省了80%的内存消耗。值得再次强调的是收敛速度往往不会受到影响。相同数量的训练时期被应用于STR和常规训练以确保比较是准确的。 4.2.3 Panoptic Segmentation. RangeFormer在语义分割方面的优势进一步带来了更好的全景分割性能。从Tab。4我们可以看到Panoptic-RangeFormer在PQPQ†和RQ方面比最近的SoTA方法Panoptic-PHNet [41]获得了更好的分数。这种优越性在STR范式下仍然存在并且对于物质类来说尤其明显。统一语义和实例LiDAR分割的能力进一步验证了我们框架的可扩展性。
4.2.4 Weakly-Supervised Segmentation.
最近[68]采用线条涂鸦来标记LiDAR点云这进一步节省了注释预算。从图5a中我们可以观察到在弱监督下范围视图方法的性能远远优于基于体素的方法[156387]。这归功于范围视图的紧凑和语义丰富的属性它为学习保持了更好的表示。在没有额外模块或过程的情况下RangeFormer实现了63.0%的mIoU并在事物类和东西类方面表现出明显的优势。 4.2.5 Accuracy vs. Efficiency 分割精度和推理运行时间之间的权衡对于车载LiDAR分割至关重要。选项卡.5总结了最近方法的延迟和mIoU分数。我们观察到由于密集和计算友好的2D表示基于投影的方法[838513]往往比基于体素和融合的方法[547587]快得多。在所有方法中RangeFormer产生最佳可能的权衡;它实现了比现有范围视图方法更高的mIoU分数[8513]同时比体素和融合对应物快2倍至5倍[776375]。此外范围视图方法还受益于在图像数据集上使用预先训练的模型例如[18]如表中所示ImageNet和Cityscapes [16]。 4.2.6 Qualitative Assessment. 图6提供了SemanticKITTI [5]序列08上SoTA范围视图LiDAR分割方法[8513]的一些可视化示例。如从误差图清楚地示出的现有技术发现分割稀疏分布的区域是困难的地形和人行道。相比之下RangeFormer能够对长距离依赖性进行建模并保持较大的感受野能够从整体上减轻错误。我们还发现在分割对象的形状和边界的优势。更多的视觉比较见附录。 4.3. Ablation Study
在[1374]之后我们在SemanticKITTI [5]的瓦尔集合上使用大小为64 × 512的输入探测RangeFormer中的每个组件。由于我们的贡献是通用的我们还报告了SoTA范围视图方法的结果[8513]。
4.3.1 Augmentation 如图5b数据增强有助于缓解数据稀缺性并大幅提高细分性能。基于注意力的模型更依赖于数据多样性[19]。作为一个典型的例子RangeFormer的“普通”版本产生的分数略低于CENet [13]。在所有三种方法中RangeAug有助于显着提高性能并表现出明显优于常见增强和最近的Mix3D [49]。值得一提的是RangeAug所需的额外开销在GPU上可以忽略不计。
4.3.2 Post-Processing
图5c再次证明了后处理在距离视图LiDAR分割中的重要性。如果不应用它“多对一”问题将导致严重的性能下降。与广泛采用的k-NN [48]和最近的NLA [85]相比RangePost可以更好地恢复正确的信息因为相邻点之间的混叠已经整体减少。我们还发现额外的开销可以忽略不计因为“子云”是沿着批次维度沿着堆叠的并且可以在一个向前传递中处理。值得注意的是这种改进发生在训练阶段之后并且对于各种范围视图分割方法是现成的和通用的。 4.3.3 Scalable Training
为了揭示STR中可能的最佳粒度我们将点云分为4568和10个视图并在图中显示其结果。7.我们对它们应用相同的训练迭代因此它们的实际内存消耗变为1 Z。我们看到4或5个视图的训练往往会产生更好的分数;而在更多视图上会聚速率将受到影响这可能是由于低分辨率距离图像中的有限相关性。总之STR为距离视图LiDAR分割开辟了一种新的训练范例可以更好地平衡准确性和效率。实际上这个操作会损害性能相当于输入变少了 5、Conclusion 在这项工作中在防御传统的范围视图表示我们提出了RangeFormer一个新的框架实现上级性能比其他形式的语义和全景激光雷达分割。我们还引入了STR这是一种更具可扩展性的处理LiDAR点云学习和处理的方法可以产生更好的准确性和效率权衡。我们的方法为准确的车载LiDAR感知带来了更多的可能性。在未来我们将寻求更轻量级的自注意力结构和计算以进一步提高效率。
Appendix
在本附录中我们补充了更多的材料来支持本文的主体。具体而言本附录的结构如下。·
6详细阐述了所提出的方法和实验的附加实现细节。
7提供了额外的定量结果包括我们的比较研究和消融研究的类IoU评分。
8附加了额外的定性结果包括更多的视觉比较图和演示视频。
9.承认在这项工作中使用的公共资源。
6. Additional Implementation Detail 在本节中我们提供了更多的技术细节以帮助读者更好地理解我们的方法。具体来说我们首先详细说明我们工作中使用的数据集和基准。然后我们总结网络配置并提供更多的训练和测试细节。
6.1. Benchmark
SemanticKITTI
作为KITTI视觉里程计基准的扩展SemanticKITTI [5]数据集已被广泛用于评估和比较模型性能。它由总共22个序列组成收集自德国的街景。训练、验证和测试扫描的数量分别为19130、4071和20351。激光雷达点云由Velodyne HDL64E传感器捕获每次扫描约120k个点垂直角分辨率为64。因此我们在3D到2D光栅化期间将H设置为64。在这项工作中采用了19个类的常规映射。
nuScenes
作为一个多模式自动驾驶数据集nuScenes [7]是迄今为止最全面的基准。它是由Motional前身为nuTonomy的团队开发的。数据收集自波士顿和新加坡。我们使用nuScenes中的lidarseg集[21]进行LiDAR分割。它包含28130个训练扫描和6019个验证扫描。Velodyne HDL32E传感器用于数据收集可产生约40k至50k点的稀疏点云。因此我们在3D到2D光栅化期间将H设置为32。在这项工作中我们采用了传统的16个类从官方映射。
ScribbleKITTI
由于人工标注通常是昂贵和耗时的越来越多的最近的作品已经开始寻求弱注释。ScribbleKITTI [68]用线条涂鸦重新标记了SemanticKITTI [5]从而保存了时间和精力。最终有效语义标签占点数的比例为8.06%。我们采用与SemanticKITTI相同的3D到2D光栅化配置因为这两个集合共享相同的数据格式即64个波束每次LiDAR扫描约120k个点16个语义类。我们遵循作者的原始设置并报告SemanticKITTI序列08的分数。
6.2. Model Configuration
Range Embedding Module (REM)在距离视图光栅化之后尺寸为6 ×H ×W的输入Ruv首先被馈送到REM中用于距离视图点嵌入。它由三个MLP层组成分别将Ruv的嵌入dim从6映射到64、128和128并使用批范数和GELU激活。
Overlap Patch Embedding.REM的输出大小为128×H× W用作Transformer模块的输入。具体地对于四个阶段中的每一个补丁嵌入层将大小为Hemed、Wembed的输入划分为3×3补丁其中重叠步幅等于1对于第一阶段和2对于最后三个阶段。
Multi-Head Attention Feed-Forward.在重叠补丁嵌入之后使用标准多头注意操作处理补丁如[197073]中所述。我们保留使用残余连接和层规范化Add Norm的默认设置。四个阶段中的每一个的头的数量是[3463]。
Segmentation Head.从不同阶段提取的分层特征被存储并用于解码。具体地四个阶段中的每一个产生空间大小为[HWH 2W 2H 4W 4H 8W 8]的特征其中通道维度为[128128320512]。如正文所述我们执行两个统一步骤来统一不同特征图的通道和空间大小。我们首先将它们的通道尺寸映射到256即[128HW] → [256HW][128H 2W 2 ] → [256H 2W 2 ][320H 4W 4 ] → [256H 4W 4 ][512H 8W 8 ] → [256H 8W 8 ]然后我们将四个特征映射插值到H ×W的空间大小。
6.3. Training Testing Configuration
我们的LiDAR分割模型使用PyTorch实现。所提出的数据扩充RangeAug、后处理技术RangePost和STR分区策略都是GPU辅助的并且在数据准备过程中这避免了在模型训练期间增加额外的开销。“共同”数据扩充的配置即缩放、全局旋转、抖动、翻转和随机丢弃描述如下。
随机缩放点坐标pxpypz的全局变换其中每个点的坐标在−0.05%到0.05%的范围内随机缩放。
全局旋转XY平面内点坐标pxpy的全局变换旋转角度在0度到360度范围内随机选择。
随机抖动点坐标px、py、pz的全局变换其中每个点的坐标在-0.3m 到0.3m 的范围内随机抖动。
随机翻转点坐标pxpy的全局变换具有三种选项即仅沿X 轴翻转、仅沿Y 轴翻转、沿X 轴和Y 轴翻转。
随机丢弃全局变换在范围视图光栅化之前从整个LiDAR 点云中随机删除一定比例的kdrop 点。在我们的实验中kdrop 设置为 10%。
另外所提出的范围视图增强组合的配置描述如下
RangeMix计算出当前扫描和随机采样扫描的所有倾角 和方位角 θ 后我们将点分割为 kmix 等跨倾角范围即不同的混合策略。然后交换两次扫描中相同倾角范围内的对应点。在我们的实验中我们从组合中设计混合策略并且 kmix 从列表 [2,3,4,5,6] 中随机采样。
RangeUnion点嵌入中的存在性pe用于创建潜在的掩模然后将其用作用来自随机采样扫描的点在相应位置补充当前距离图像中的空网格的指示符。给定多个 Nunion P n pe n 空范围视图网格我们随机选择 kunionNunion 候选网格进行点填充其中 kunion 设置为 50%。
RangePaste随机采样扫描的真实语义标签用于创建粘贴蒙版。要粘贴的类是“尾部”分布中的类它形成语义类列表sem 类。对稀有类的点进行索引后我们将它们粘贴到当前扫描中同时保持范围图像中的相应位置。
RangeShift范围视图网格中的点相对于其方位角 θ 的全局变换。这对应于使用 kshift rows 沿着行方向移动范围视图网格。在我们的实验中kshift是从W 4 到3W 4 的范围内随机采样的。
训练时进行五种常见增强的概率设置为[1.0,1.0,1.0,1.0,0.9]而进行范围视图增强的概率设置为 [0.9, 0.2, 0.9, 1.0]。
在验证期间所有数据增强即常见增强操作和建议的范围视图增强操作都设置为 false。我们注意到最近的一些工作在验证集上使用了一些技巧例如测试时间增强、模型集成等。值得一提的是我们没有使用任何技巧来提高验证性能以便结果可以直接与遵循标准设置的方法。
在测试过程中我们遵循 CENet [13] 中的常规设置并在预测阶段应用测试时间增强。我们使用 CENet 作者的代码来实现这一点它在多个增强输入中进行投票以生成最终预测。三种常见的增强即全局旋转、随机抖动和随机翻转用于产生增强输入。投票数设置为 11。我们不使用模型集成来提高测试性能。按照惯例我们报告了 SemanticKITTI 和 nuScenes 基准测试集的增强结果。对于 ScribbleKITTI [68]我们重现了 FIDNet [85]、CENet [13]、SPVCNN [63] 和 Cylinder3D [87]并报告它们在标准 ScribbleKITTI val 集上的分数而不使用测试时间增强或模型集成。
6.4. STR: Scalable Training Strategy
正如正文中所述我们提出了一种可扩展的范围视图训练STR策略以节省训练期间的计算成本。如图 8 所示STR 允许我们在任意低分辨率 2D 距离图像上训练距离视图模型同时仍然保持令人满意的 3D 分割精度。它在精度和效率之间提供了更好的权衡这是车载 LiDAR 分割的两个最重要的因素。
6.5 Post-Processing Configuration 正如正文中所述我们提出了一种新颖的 RangePost 技术以更好地处理范围视图光栅化中的“多对一”冲突。算法 3 显示了 RangeAug 操作的伪代码。具体来说我们首先将整个 LiDAR 点云子采样为等间隔的“子云”它们共享相似的语义。接下来我们将点云的这些子集叠加并输入到 LiDAR 分割模型中进行推理。获得预测后我们将它们缝合回原来的位置。正如我们在实验中的几种范围视图方法所验证的那样RangePost可以更好地恢复正确的信息因为相邻点之间的混叠已经得到了整体的减少。
7. Additional Quantitative Result
在本节中我们提供了对三个测试的 LiDAR 分割数据集进行比较和消融研究的额外定量结果。
7.1. Comparative Study 我们对三个流行的 LiDAR 分割基准进行了广泛的实验即 SemanticKITTI [5]、nuScenes [21] 和 ScribbleKITTI [68]。表 7 显示了不同 LiDAR 语义分割方法在 SemanticKITTI [5] 测试集上的类 IoU 分数。在所有竞争对手中我们观察到 RangeFormer 及其 STR 版本相对于原始点、鸟瞰图、范围视图和体素方法具有明显的优势。当仅使用范围视图表示时我们还获得了比最近基于多视图融合的方法[77,31,79,40]更好的分数。表8显示了不同LiDAR语义分割方法在ScribbleKITTI [68]的val集上与SemanticKITTI [5]的val集相同的类别IoU分数。我们可以看到在这个弱注释数据集上RangeFormer 比 SoTA 体素和范围视图方法产生更高的 IoU 分数。对于汽车、自行车、摩托车和人等动态类别这种优势尤其明显。还值得注意的是我们的方法在仅使用 8.06% 语义标签的情况下比一些完全监督的方法取得了更好的分数表 7。标签。 9 和选项卡。图 10 分别显示了不同 LiDAR 语义分割方法在 nuScenes [21] 的验证集和测试集上的分类 IoU 分数。结果再次证明了 RangeFormer 和 STR 在 LiDAR 语义分割方面的优势。我们在涵盖各种情况的三个基准上取得了新的 SoTA 结果即密集/稀疏 LiDAR 点云以及完整/弱监督信号。此外选项卡。图 11 显示了 SemanticKITTI [5] 的 LiDAR 全景分割基准中 PQ、RQ、SQ 和 IoU 的类别分数。对于所有四个指标我们观察到 Panoptic-RangeFormer 和 STR 与最近的 SoTA LiDAR 全景分割方法相比都有优势 [41]。 7.2. Ablation Study
表14 显示了 FIDNet [85]、CENet [13] 和 RangeFormer 在 STR 训练策略下的类 IoU 分数。我们可以看到距离视图LiDAR分割方法能够在非常小的分辨率范围图像上进行训练例如W 192、W 240和W 320。在节省大量内存消耗的同时分割性能相对较低。稳定的。例如RangeFormer 在 W 192 时可以达到 64.3% mIoU这比之前的多种 LiDAR 分割方法都要好。水平分辨率越高分割性能往往会得到改善。平衡准确性和效率的灵活性为从业者提供了更多的可能性和选择。
8. Additional Qualitative Result
在本节中我们提供了我们方法的额外定性结果以进一步证明我们的优势。
8.1. Visual Comparison
图 9 和图 10 包括 RangeFormer 和 SoTA 距离视图 LiDAR 分割方法的更多可视化结果 [85, 13]。与现有技术相比我们可以看到RangeFormer产生了更好的LiDAR分割性能。它从整体上消除了围绕自我车辆的错误预测特别是对于多个类别聚集在一起的复杂区域。 8.2. Failure Case
尽管RangeFormer大幅提升了LiDAR分割性能但仍然容易出现一些失败案例。从图9和图10中的误差图可以看出错误的预测很可能发生在物体和背景的边界处图9中的第一个场景。对于稀有类别图 10 中的第二个场景和长距离区域图 10 中的第四个场景也可能存在错误预测。考虑到此类情况的更复杂的设计可能会产生更好的激光雷达分割性能。
8.3. Video Demo
除了图片之外我们还在补充材料中附上了四个视频演示即 demo1.mp4、demo2.mp4、demo3.mp4 和 demo4.mp4。每个视频演示由数百个帧组成可以对我们提出的方法进行更全面的评估。这些视频演示将在我们的网站上公开发布3。
自己总结疑问
1、整体很简洁但是没开源transfomer patch那里是怎么做的感觉没看太懂。
2、STR理解是拆分成小块所以也算是一种数据增强 384的宽度是怎么来的有点好奇384*51920但是原文消融实验最高的结果是480的时候得到的。在cenet str有增强但是在作者提出的网络str没有增强。如果把一个图片分成N算算完在拼接回去时间为什么会更少呢
3、Augmentation 10个点传统的增强作者自己的增强
4、RangePost 8个点先把结果分成几份分别做推理最后在推回去