当前位置：首页 > news >正文

网站建设项目总结潭州学院wordpress

news 2025/11/14 18:33:58

网站建设项目总结,潭州学院wordpress,专业手机网站建设哪家好,好看的静态网站项目主页 https://nv-tlabs.github.io/lift-splat-shoot 图1#xff1a;本文提出一种模型#xff0c;给定多视角相机数据 (左)#xff0c; 直接在鸟瞰图 (BEV) 坐标系(右)中推理语义。我们展示了车辆分割 (蓝色)#xff0c;可驾驶区域 (橙色) 和车道分割 (绿色) 的结果。然…项目主页 https://nv-tlabs.github.io/lift-splat-shoot 图1本文提出一种模型给定多视角相机数据 (左) 直接在鸟瞰图 (BEV) 坐标系(右)中推理语义。我们展示了车辆分割 (蓝色)可驾驶区域 (橙色) 和车道分割 (绿色) 的结果。然后这些BEV预测被投影回输入图像中 (左边的点) 。摘要自动驾驶汽车感知的目标是从多个传感器中提取语义表示并将这些表示融合到一个“鸟瞰图Birds-eye-view即BEV”坐标系中以供运动规划使用。本文提出一种新的端到端架构从任意数量的相机中直接提取场景的BEV表示。我们的方法背后的核心思想是将每个图像单独通过“抬升Lift”生成每个相机的3D特征a frustum of features 然后将所有3D特征“拍扁Splat”到光栅化的鸟瞰图网格中。通过对整个相机装置进行训练证明了该模型不仅能够学习如何表示图像而且能够学习如何将所有相机的预测融合为一个场景的统一表示同时对标定误差具有鲁棒性。在目标分割和地图分割等标准鸟瞰图任务上所提出的模型优于所有基线和之前的工作。为了追求学习运动规划Motion Planning的密集表示的最终目标我们通过将模板运动轨迹“投射Shoot”到我们的网络输出的BEV Cost Map中展示了我们模型推理出的representations能够实现可解释的端到端的运动规划。最后使用激光雷达提供的真值对模型进行了评测。 1. 简介计算机视觉算法通常将图像作为输入并输出与坐标系无关的预测——例如分类——或与输入图像在同一坐标系中的预测——例如目标检测、语义分割或全景分割。这种模式与开箱即用的自动驾驶中的感知算法模式不匹配。在自动驾驶中将多个传感器作为输入每个传感器具有不同的坐标系感知模型最终的任务是在新的坐标系——自车ego car坐标系——中产生预测结果以供下游路径规划器Planner使用如图.2所示。有许多简单、实用的策略可以将单图像范式paradigm扩展到多视图场景。例如对于n个相机的3D目标检测问题可以将单个图像检测器单独应用于所有输入图像然后根据相机的内参和外参相机坐标系到自车坐标系的转换关系将每个相机的检测目标旋转平移rotate and translate到自车坐标系。这种单视图范式到多视图场景的扩展蕴含了三个宝贵的对称性平移不变性Translation equivariance——如果图像内的像素坐标全部被平移输出将发生等量的位移。全卷积单图像目标检测器大致具有此属性这种多视图扩展也从它们继承了此属性[11][6] 。顺序不变性Permutation invariance——最终输出不依赖于N个相机的特定顺序。自车坐标系等距不变性Ego-frame isometry equivariance——在给定的图像中无论捕获图像的相机相对于ego汽车位于何处都将检测到相同的对象。声明这个属性的一种等效方式是ego-frame的定义可以被旋转/平移输出也会随之旋转/平移。上述简单方法的缺点是使用单幅图像检测器的后处理检测结果阻碍了人们获取ego-frame中的预测结果和传感器输入之间的偏差。由此导致这种模型无法以数据驱动的方式学习跨相机融合信息的最佳方法。这也意味着反向传播不能使用来自下游运动规划器的反馈来自动地改善感知系统。本文提出一种名为 Lift-Splat 的模型保留了上述设计确定的3种对称性同时也是端到端的 end-to-end differentiabl。在第3节中我们解释了我们的模型如何通过生成上下文特征的截头锥体形状frustum-shaped参考图4点云将图像“抬升Lift”为3D并将所有截头锥体“拍扁splats”到参考平面上以便下游的运动规划任务使用。在第3.3节中我们提出了一种将建议轨迹 proposal trajectorie“投射Shooting”到这个参考平面以进行可解释的端到端运动规划的方法。在第4节中确定了在全相机平台上有效训练lift-splat模型的实现细节。在第5节中提供了经验证据证明了我们的模型从可能输入的分布中学习到一种有效的信息融合机制。图2左来自SegNet [1]传统上诸如语义分割等计算机视觉任务在与输入图像相同的坐标系中进行预测。右来自神经网络运动规划器[41]相比之下自动驾驶的规划通常在BEV坐标系中进行。我们的模型则直接在给定的BEV坐标中得到预测结果从而可以直接用于多视图图像的端到端运动规划。 2. 相关工作从多个相机的图像数据中学习统一表征的方法建立在传感器融合和单目目标检测方面的最新工作成果之上。来自Nutonomy [2] 、Lyft [13] 、Waymo [35]和Argo [3]的大规模多模态数据集近来已经使仅以相机输入为条件的整个360度场景的局部ego车辆的充分表征学习成为可能。我们在Lift-Splat架构中探索了这种可能性。 2.1. 单目Monocular目标检测单目目标检测器根据如何对坐标系转换建模来定义这里的坐标系转换指的是图像平面Image Plane坐标系到给定的三维参考坐标系。一个标准的技术是在图像平面上应用一个成熟的2D物体检测器然后训练第二个网络将2D Box回归到3D Box [12,26,31,27]。nuScenes benchmark [31]上目前最先进的3D物体检测器使用了这样一种架构该架构训练了一个标准的2D检测器并使用损失函数来预测深度该损失函数试图将错误的深度误差与错误的Box造成的误差分离开来。这些方法在3D目标检测benchmark上取得了很好的性能因为图像平面中的检测解决了单目深度预测中关于目标检测的基本问题。最近取得成功的一种方法是分别训练两个网络一个网络进行单目深度预测另一个网络单独进行BEV检测[39][40]。这些方法被称为“伪激光雷达pseudolidar”。pseudolidar成功的直观原因是其能够训练BEV网络该网络可以在最终评估检测的坐标系中运行相对于图像平面坐标系欧氏距离在BEV坐标系下更有意义。图3我们将模型的“lift”步骤可视化。对于每个像素我们预测了深度上的分布(左)和上下文向量context vector左上。沿着射线的每个点的特征由α和 c的外积(右)决定。第三类单目目标检测器使用3维目标原语primitives这些primitives根据它们在所有可用相机上的投影来获取特征。Mono3D [4]通过在地平面上生成三维proposal并通过投影到可用图像平面上对其进行评分最终在KITTI数据集上实现了最先进的SOTA单目目标检测。正交特征变换Orthographic Feature Transform[29] 建立在Mono3D之上通过将体素的固定立方体映射到图像上以收集特征然后训练第二个“BEV”CNN以在3D坐标系中检测体素中的特征。我们的模型能够解决这些模型存在的一个潜在性能瓶颈那就是一个像素为每个体素贡献了相同的特征而没有依赖于该像素对应对象的深度。 2.2. BEV坐标系中的推理最近通过使用相机内参和外参从而直接在BEV坐标系中进行推理的模型获得了大量的关注。MonoLayout [21]从单幅图像进行BEV推理并使用adversarial 损失来帮助模型修复合理的隐藏物体。同时期的工作金字塔占用网络Pyramid Occupancy Networks [28]提出了一种transformer架构可将图像表示转换为BEV表示。FISHING Net [9]——也是同时期的工作——提出了一种多视图架构同时对象进行分隔并执行未来预测。在第5节中展示了我们的模型在经验上优于之前的工作。这些架构以及我们的架构都使用了类似于“multi-plane”图像的数据结构这些图像来自机器学习图形社区 [34,32,38,20] 。 3. 方法本节提出一种从任意相机装置捕获的图像数据中学习场景鸟瞰图表示BEV representations的方法。我们设计了模型使其尊重在第1节中确定的对称性。 3.1. Lift隐式深度分布我们模型的第一阶段单独对相机装置中的每个图像进行操作。这一阶段的目的是将每个图像从局部二维坐标系“抬升Lift”到所有相机共享的三维坐标系。单目传感器融合的挑战在于我们需要深度信息才能将相机坐标转换为3D参考帧坐标但与每个像素相关联的“深度”本质上是模糊的。我们提出的解决方案是为每个像素上所有可能的深度生成表示。点云中每个点的上下文向量context vector被参数化以匹配注意力和离散深度推理的概念。在像素p网络预测每个像素的上下文向量和深度分布。然后与点相关联的特征被定义为像素的上下文向量用深度分布加权的结果请注意如果我们的网络预测是一个One-Hot向量则点的上下文将只针对某个深度非零和pseudolidar方法[39] 一样。如果网络预测的深度为均匀分布那么网络将为分配给像素p预测出与深度无关的点的表示如OFT方法 [29] 。因此从理论上讲我们的网络能够自动选择是将图像中的上下文放置在BEV表示的特定位置还是将上下文扩散到整个光线空间中如果深度是模糊的。总而言之理想情况下我们希望为每个图像生成一个函数该函数可以在任何空间位置查询并返回上下文向量。为了利用离散卷积的优势我们选择将空间离散化。对于相机来说相机可见的空间体积对应于一个平头金字塔。如图3所示。笔者注相当于2D图片上的一个点像素对应3D世界的一条射线故可以在这条直线上采样N个点图3中用了10个实际用了41个之后网络需要预测这个特征点的深度信息 (distribution over depth参考直线上的直方图)本文是用softmax的概率表示用一个D维的向量经过softmax来表示D表示4-45米范围内以1米为间隔的距离也就是 D41这样的话上每个位置就代表了该像素处于这个深度范围的概率值。利用深度信息加权 (scale) 同一位置的图像特征 C参考图3右侧由于网络预测的深度在第三个 bin 较高所以当深度 D3 时特征与图片特征C最接近而其余深度处特征较弱。对一张图片每个2D特征点做相同的操作就可以生成一个形状类似平头金字塔 (frustum如图4) 的点云。 3.2. Splat柱状池化我们遵循pointpillar [18]架构转换“Lift”步骤构建的大型点云结果。“Pillars”是具有无限高度的体素。我们将每个点分配给其最近的Pillar并执行sum pooling以创建一个 C×H×W 的张量可以由标准CNN进行BEV推理。整个lift-splat架构如图4所示。 Fig. 4: Lift-Splat-Shoot Outline 我们的模型将n个图像 (左) 及其相应的外参和内参作为输入。在“lift”步骤中为每个单独的图像生成一个平头金字塔形状的点云(中-左)。然后使用外参和内参将每个平头金字塔“拍扁Splat”到BEV平面上 (中-右)。最后利用BEV CNN对BEV语义分割或运动规划的BEV表示进行处理 (右)。就像OFT [29]使用积分图像来加快池化步骤一样我们应用类似的技术来加快sum pooling过程。考虑到生成的点云大小效率对于训练模型至关重要。我们并非填充每个Pillar然后执行sum pooling而是通过使用打包和利用“cumsum trick”进行求和池化来避免padding。该操作具有解析梯度analytic gradient可以有效地计算以加速autograd正如第4.2小节所解释的那样。实际工程中可以首先构建一个Pillar-based BEV视角的特征图200x200分辨率覆盖以车为中心边长100米的正方形区域然后将上一步骤得到的6个平头金字塔点云中的每个点匹配 (assign) 给距离最近的Pillar最终BEV space上每个Pillar的特征就是所有匹配到的特征点的和池化 (sum pooling)。 3.3. Shoot运动规则 Lift-Splat模型的关键方面是它能够从纯相机输入中进行端到端的运动规划代价图cost map学习。在测试时可以通过“投射shoot”不同的轨迹对其成本进行评分然后根据最低成本轨迹[25]来实现使用推理的成本图进行运动规划。在5.6节中探究了本模型实现端到端可解释的运动规划的能力并将其性能与基于激光雷达的端到端神经运动规划器进行了比较。我们将 “规划planning定义为预测自车K个模板轨迹的分布以传感器观测为条件。该方法受到最近提出的神经运动规划器 Neural Motion PlanneNMP[41] 的启发该架构以点云和高精度地图为条件生成可用于对所提出的轨迹进行评分的 cost-volum结果。图5我们在训练和测试阶段将我们“投射shoot”到cost map上的1K个轨迹模板进行可视化。在训练期间每个模板轨迹的代价被计算并解释为模板上的1K-维度的玻尔兹曼分布Boltzman distribution。在测试过程中我们选择该分布的argmax 并根据所选择的模板进行操作。与NMP中提出的硬边界hard-margin损失不同本文将规划定义为对一组K模板轨迹的分类。为了利用规划问题的cost-volume性质我们强制K个模板轨迹上的分布采取以下形式其中是索引到位置x, y的cost mapcost map基于特定的观察预测得到因此可以通过优化专家轨迹的对数概率从数据中进行端到端的训练。对于标签给定一个真值轨迹我们计算到模板轨迹的L2距离最近邻居然后使用交叉熵损失cross entropy loss进行训练。的这种定义使我们能够学习可解释的空间成本函数而无需定义NMP [41]中的硬边际损失。在实践中通过在大量的专家轨迹上运行K-Means来确定模板轨迹集合。在我们的实验中用于“Shooting”Cost Map的模板轨迹集可视化在图5中。 4. 实现 4.1. 架构细节我们模型的神经网络结构类似于OFT [29]。与OFT一样我们的模型有两个大型骨干网络backbones。其中一个backbone分别对每个图像进行操作以对每个图像生成的点云进行特征化。当点云被“Splat拍扁”到参考坐标系中的Pillar时另一个backbone开始对点云发挥作用。两个网络由我们的Lift-Splat Layer连接如第3节中的定义并在图4中可视化。对于单独操作每个图像的网络在包括baseline在内的所有模型的所有实验中我们都利用了EfficientNet-B0[37]在Imagenet[30]上预训练的 layers 。EfficientNets是在资源有限的情况下通过穷尽的体系结构搜索发现的网络体系结构其深度、宽度和分辨率按比例放大。相对于ResNet-18/34/50[8]我们发现EfficientNets在所有模型上都能实现更高的性能只是需要更多的优化步骤才能收敛略有不便。对于我们的BEV网络我们使用类似于PointPillar[18]的ResNet模块Blocks的组合。具体来说在内核尺寸为7步长为2卷积之后进行Batch Norm[10] 和 ReLU [22] 然后是ResNet-18 的前 3 个元层获得不同分辨率3个鸟瞰图表示分别是。然后按尺度因子4 对进行上采样与拼接应用resnet块最后上采样 2以返回到原始输入鸟瞰伪图像的分辨率。在我们的最终网络中有1430万个可训练参数。有几个超参数决定了我们模型的“分辨率”。首先是输入图像的尺寸H × W。在下面的所有实验中我们将输入图像的大小Resize和裁剪为128 × 352 并相应地调整外参和内参。网络的另一个重要超参数是BEV网格的分辨率X × Y。在我们的实验中我们将bins在x和y上均设置在-50米到50米之间cells大小为0.5米× 0.5米。因此结果网格是200 × 200。最后是D的选择它决定了网络预测的深度分辨率。我们将D限制在4.0米和45.0米之间间距为1.0米。有了这些超参数和架构设计选择模型的前向传递在Titan V GPU上以35 hz的速度运行。 4.2. 锥形池化累积求和技巧训练效率对于从整个传感器平台的数据中学习至关重要。在第3节中我们选择对Pillars进行sum pooling而不是max pooling因为我们的cumulative sum技巧可以避免由于padding而过度使用内存。“累积和技巧”是观察到总和池可以通过根据 bin id 对所有点进行排序对所有特征执行累积和然后减去 bin 部分边界处的累积和值来执行。不依赖autograd对所有三个步骤进行反向传播而是可以推导出模块整体的analytic gradient 将训练速度提高2倍。我们称该层为“Frustum Pooling” 因为它处理将N个图像产生的Frustum平头金字塔转换为与相机数量n无关的固定维度C × H × W张量。代码可以在我们的project page上找到。 5. 实验与结果我们使用nuScenes[2]和Lyft Level 5[13]数据集来评估我们的方法。nuScenes是一个大型数据集包含1k个场景的点云数据和图像数据每个场景长度为20秒。两个数据集中的相机装置均由6个相机组成它们大致指向前、前左、前右、后左、后右和后方向。在所有数据集中相机的视场之间有一个小的重叠。每个数据集中都有对应的相机外参和内参进行坐标转换。由于我们的模型是在相机校准的条件下进行的因此它能够处理这些转换。我们定义了两个基于对象的object-based分割任务和两个基于地图的map_based任务。对于目标分割任务我们通过向鸟瞰图中投射3D边界框来获得真实的鸟瞰图目标。nuScenes上的car Segmentation指的是类别为vehicle.car的所有边界框。nuScenes上的vehicle segmentation指的是所有vehicle类别的边界框。Lyft上的car分割指的是类别Car的所有边界框nuScenes上的vehicle分割指的是类别 ∈ { Car, truck, other_vehicle, bus, bicycle}。对于地图我们使用nuScenes提供的地图转换layers将nuScenes地图转换到到ego坐标系通过提供的6自由度定位和栅格化信息。对于所有的目标分割任务用正权重1.0的二进制交叉嫡binary cross entropy进行训练。对于车道分割我们将正权重设置为5.0对于道路分割我们使用正权重1.0 [24]。在所有情况下我们使用Adam [14]进行300k步的训练学习率1e−3权重衰减1e−7。我们使用PyTorch框架[23]。 Lyft数据集没有标准的train/val划分。我们分离了48个Lyft场景进行验证以获得与nuScenes大致相同大小的验证集Lyft有6048个样本nuScenes有6019个样本。 5.1. Baselines描述与普通的CNN不同我们的模型在初始化时配备了三维结构。通过与由标准模块组成的CNN进行比较表明这种结构对良好的性能至关重要。遵循类似于MonoLayout[21]的架构也训练一个CNN仅从图像中输出BEV标签但在设计架构时没有利用 inductive bias只在单个相机上训练。该架构具有一个EfficientNet-B0 Backbone可独立提取所有图像的特征。我们将这些表征连接起来并执行双线性插值进行上采样转换为张量作为我们的模型输出的张量。我们设计的网络与我们的模型具有大致相同的参数数量。该基线的弱性能表明在多视图配置中明确将第一节中的对称性3应用到模型中是多么重要。为了表明我们的模型正在预测有用的隐式深度我们将其与预训练CNN的权重被冻结的模型以及OFT [29]进行比较。我们在所有任务上的表现都超过了这些基线如表1和2所示。我们还超过了在相同的分割任务上的进行性能测试的同时期工作[9][28]。因此该架构正在为下游任务学习有效的深度分布以及有效的上下文表示。 5.2. 分割实验证明Lift-Splat模型能够在BEV坐标系中根据监督学习语义3D表示。对象分割任务的结果如表1所示地图分割任务的结果如表2所示。在所有benchmark中我们的表现都超过了baseline。本文相信通过隐式投影到3D对于性能的提高是非常巨大的特别是在对象分割方面。我们还包括了两个同时期工作的IOU分数[9][28]尽管这两篇论文都使用了不同的鸟瞰图网格定义和不同的Lyft数据集验证分割因此还不可能进行真正意义上的比较。 5.3. 鲁棒性由于BEV CNN从数据中学习如何融合跨相机的信息我们可以训练模型使其对自动驾驶中发生的简单噪声模型具有鲁棒性例如外参存在偏差或相机意外挂掉。在图6中我们验证了通过在训练期间丢弃相机我们的模型在测试时仍然可以更好地处理丢弃的相机。事实上当所有6个摄像头都存在时表现最好的模型是在训练过程中从每个样本中随机丢弃一个摄像头进行训练的模型。我们推断传感器dropout迫使模型学习不同相机上图像之间的相关性类似于dropout的其他变体[33][5]。我们在图6的左侧显示使用噪声外参训练模型可以得到更好的测试性能。对于测试时的少量噪声在外部环境中训练的无任何噪声的模型表现最好因为BEV-CNN可以更有信心地相信splat的位置。对于较大的外参噪声该模型保持了良好的性能。在图7中我们在nuScenes上的car分割为每个相机测量了“重要性”。请注意在nuScenes上丢失摄像头意味着汽车局部区域的某些区域没有传感器测量因此性能严格地受整个传感器装置性能的上限限制。网络由于缺少摄像头而进行修复的定性示例如图8所示。以这种方式衡量每个摄像头的重要性表明传感器冗余对安全性更重要。图6我们展示了通过对网络进行训练使其对常见的传感器误差来源具有弹性是有可能的。在左边我们展示了当外参中存在大量噪声(蓝色)时进行训练网络在测试时对外部噪声变得更鲁棒。右图显示在训练期间从每个批次中随机丢弃摄像机(红色)增加了测试时对传感器丢失的鲁棒性。图7我们测量了当每个摄像头都缺失时car分割的IOU。nuScenes相机装置上的后向相机具有更大的视场因此很明显失去这个相机相比于完整的相机装置右侧标记为“full”的性能最大下降。表3我们对nuScenes数据集中6个相机中的4个的图像进行了训练。然后我们用新的相机进行评估bl对应于左后相机fl对应于左前相机我们发现当添加更多在训练期间未见过的传感器时模型的性能会严格提高。 5.4. Zero-Shot Camera Rig Transfer 我们现在探究Lift-Splat的泛化能力。在第一个实验中当只对nuScenes相机组的一部分相机的图像进行训练但在测试时可以访问剩下的两个相机图像时我们测量了我们模型的性能。在表3中我们展示了对于car segmentation当测试阶段加入了新的相机且不经过任何重新训练时我们的模型的性能提升。我们将上述实验进一步推进并探索如果只在nuScenes数据上训练我们的模型对Lyft摄像头的泛化能力如何。定性结果如图9所示和baseline的对比如表4所示。图8对于单个时间戳我们删除每个摄像头并可视化相机的丢失如何影响网络的预测。丢失的相机所覆盖的区域在每一种情况下都变得更加模糊。当前面的摄像头被移除时(中上) 网络推断出自车前面的车道和可驾驶区域并推断出在右上角的摄像头中只能看到一个拐角的汽车的车身。表4我们在nuScenes数据集上训练了模型然后在Lyft数据集评估它们。Lyft中的相机和nuScenes是完全不同的但是模型也取得了超越baseline的效果。注意我们的模型拉大了与表1和表2中的标准基准的差距。 5.5. 与Oracle Depth的基准测试将该模型与PointPillar[18]架构进行了benchmark基准测试该架构使用激光雷达点云的真实深度信息。如表5所示在所有任务中我们的架构的性能略低于用激光雷达单次扫描A single scan训练的PointPillar。然而至少在可驾驶区域分割方面我们接近了LIDAR的性能。一般来说在一次激光雷达扫描中并不是所有车道都是可见的。我们希望在未来在更广泛的环境中测量性能。为了深入了解该模型与LIDAR的区别绘制了汽车分割的性能如何随两个控制变量的变化而变化到自车的距离和天气条件。从nuScenes数据集中每个场景标记附带的描述字符串中确定场景的天气。结果如图10所示。在夜间场景中该模型的性能比pointpillar差得多。两个模型的性能都随着深度的增加大致呈线性下降。 5.6. 运动规划最后通过将Lift-Splat输出的表征训练为成本函数cost function来评估模型执行运动规划的能力。我们生成的轨迹间隔为5秒间隔为0.25秒。为了获得模板我们将K 1000的k均值拟合到nuScenes训练集中的所有自车轨迹。在测试时我们测量了网络预测的轨迹模板与最接近的真实轨迹之间的L2范数误差以此来衡量网络的预测能力。 Fig. 9: 定性地展示了所提出模型在测试时给定一个全新的相机装置时的表现。道路分割用橙色表示车道分割用绿色表示车辆分割用蓝色表示。表5与使用激光雷达的Oracle Depth模型相比仍有改进的空间。从相机平台进行视频推断可能是必要的以获得超越激光雷达所需的深度估计。该任务是自动驾驶的一个重要实验因为该实验的地面真值目标的获取成本比地面真值3D边界框低几个数量级。这项任务对于评估基于相机的方法与基于激光雷达的方法的性能也很重要因为尽管来自纯相机的3D目标检测的上限肯定是只受限于激光雷达的上限但使用纯相机的最佳规划器原则上应该上限来自只受激光雷达训练的最佳规划器的性能。规划实验的定性结果如图11所示。对pointpillar进行基准测试的经验结果如表6所示。输出轨迹表现出令人满意的行为如遵循道路边界在人行横道前停车以及在车辆后方刹车。 6. 结论本文提出一种架构旨在从任意相机平台推断BEV表示。该模型在一系列基准分割任务上的表现优于baseline这些任务旨在探索模型在BEV坐标系中表示语义的能力而在训练或测试时不需要任何真实深度数据。本文提出训练模型的方法使网络对简单的标定噪声模型具有鲁棒性。该模型能实现遵循轨迹shooting范式paradigm的端到端运动规划。为了满足并可能超越只使用来自点云的真实深度数据的类似网络的性能未来的工作将需要以图像的多个时间步multiple time steps为条件而不是我们在这项工作中考虑的单个时间步。图10我们比较了模型的性能如何随着深度和天气的变化而变化。正如预期的那样在夜间我们的模型相对于pointpillar的性能下降了。标题图11我们展示了1k个轨迹模板中排名前10的轨迹。视频序列可以在我们的 project page看到。该模型从单个时间戳的观测中预测bimodal 分布和曲线。我们的模型无法获取汽车的速度所以引人注目的是该模型预测了人行横道和刹车灯附近的低速轨迹。表6由于planning被限定为一组1K个模板轨迹的分类因此测量了top-5 、top-10和top-20的精度。所提出的模型在泛化方面仍然落后于基于激光雷达的方法。我们的模型输出轨迹的定性示例如图11所示。参考文献 Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 自动驾驶感知算法学习系列十一——LSS (Lift, Splat, Shoot) 方法学习上 - 知乎自动驾驶感知算法学习系列十二——LSS (Lift, Splat, Shoot) 方法学习下 - 知乎 Lift,Splat,Shoot:通过隐式反投影到3D空间实现对任意相机图像编码 LSS (Lift, Splat, Shoot) 论文源码万字长文解析 - 知乎

查看全文

http://www.zqtcl.cn/news/280255/