私人免费网站怎么下载,网站最佳颜色搭配,彩票网站开发与建设,德勤管理咨询文章目录 BEV感知算法概念BEV感知算法数据集介绍BEV感知算法分类BEV感知算法的优劣小结 BEV感知算法概念
Bird’s-Eye-View#xff0c;鸟瞰图#xff08;俯视图#xff09;。BEV感知算法存在许多的优势。
首先#xff0c;BEV视图存在遮挡小的优点#xff0c;由于视觉的透… 文章目录 BEV感知算法概念BEV感知算法数据集介绍BEV感知算法分类BEV感知算法的优劣小结 BEV感知算法概念
Bird’s-Eye-View鸟瞰图俯视图。BEV感知算法存在许多的优势。
首先BEV视图存在遮挡小的优点由于视觉的透视效应现实世界的物体在2D图像中很容易受到其他物体的遮挡因此传统的基于2D的感知方式只能感知可见的目标对于被遮挡的部分算法将无能为力。
而在BEV空间内时序信息可以很容易地被融合算法可以基于先验知识对被遮挡的区域进行预测“脑补”出被遮挡的区域是否有物体。虽然“脑补”出来的物体固然有“想象”的成分但对后续的控制模块来说还是有不少益处。
此外BEV感知算法的尺度变化小将尺度相对一致的数据输入到网络中可以得到更好的感知结果。
BEV感知算法数据集介绍
2.1 kitti-360数据集
kitti-360是一个包含丰富感官信息和完整注释的大规模数据集。我们记录了德国卡尔斯鲁厄的几个郊区在73.7公里的驾驶距离内对应超过32万张图像和10万个激光扫描。我们用粗糙的边界基元对静态和动态的三维场景元素进行注释并将这些信息转移到图像领域从而为三维点云和二维图像提供了密集的语义和实例注释。
为了收集数据旅行车两边各配备了一个180°的鱼眼相机前面一个90°的透视立体相机基线60厘米。此外在车顶上安装了一个Velodyne HDL-64E和一个SICK LMS 200激光扫描装置采用推杆式配置。这个装置与KITTI使用的装置类似只是由于额外的鱼眼相机和推帚式激光扫描仪获得了一个完整的360°视野而KITTI只提供透视图像和Velodyne激光扫描垂直视野为26.8°。此外系统还配备了一个IMU/GPS定位系统。采集车的传感器布置如图所示。 图1 Kitti-360数据集采集车
2.2 nuScenes数据集
nuScenes是第一个提供 自动汽车 全套传感器数据的大型数据集包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU。与kitti数据集相比其包含的对象注释多了7倍多。采集车的传感器布置如图所示。 图2 nuScenes数据集采集车模型
BEV感知算法分类
基于输入数据将BEV感知研究主要分为三个部分——BEV Camera、BEV LiDAR和BEV Fusion。下图描述了BEV 感知家族的概况。具体来说BEV Camera表示仅有视觉或以视觉为中心的算法用于从多个周围摄像机进行三维目标检测或分割BEV LiDAR描述了点云输入的检测或分割任务BEV Fusion描述了来自多个传感器输入的融合机制例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。 如图所示将自主驾驶的基本感知算法分类、检测、分割、跟踪等分为三个级别其中BEV感知的概念位于在中间。基于传感器输入层、基本任务和产品场景的不同组合某种BEV感知算法可以相应表明。例如M2BEV和BEVFormer属于视觉BEV方向用于执行包括3D目标检测和BEV地图分割在内的多项任务。BEVFusion在BEV空间设计了一种融合策略同时从摄像机和激光雷达输入执行3D检测和跟踪。
BEV Camrea中的代表之作是BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征并将提取的环视特征通过模型学习的方式转换到 BEV 空间模型去学习如何将特征从图像坐标系转换到 BEV 坐标系从而实现 3D 目标检测和地图分割任务并取得了 SOTA 的效果。
3.1 BEVFormer 的 Pipeline
1Backbone Neck ResNet-101-DCN FPN提取环视图像的多尺度特征
2论文提出的 Encoder 模块包括 Temporal Self-Attention 模块和Spatial Cross-Attention 模块完成环视图像特征向 BEV 特征的建模
3类似 Deformable DETR 的 Decoder 模块完成 3D 目标检测的分类和定位任务
4正负样本的定义采用 Transformer 中常用的匈牙利匹配算法Focal Loss L1 Loss 的总损失和最小
5损失的计算Focal Loss 分类损失 L1 Loss 回归损失
6反向传播更新网络模型参数 图4 BEVFormer框架图
BEVFusion算法离不开BEV LiDAR和BEV Camera算法通常使用一个fusion模块进行点云和图像特征的融合。其中BEV Fusion是其中的代表之作。
3.2 BEVFusion的 Pipeline
1给定不同的感知输入首先应用特定于模态的编码器来提取其特征
2将多模态特征转换为一个统一的BEV表征其同时保留几何和语义信息
3存在的视图转换效率瓶颈可以通过预计算和间歇降低来加速BEV池化过程
4然后将基于卷积的BEV编码器应用到统一的BEV特征中以缓解不同特征之间的局部偏准
5最后添加一些特定任务头支持不同的3D场景理解工作。 图5 BEV Fusion框架图
BEV感知算法的优劣
目前业界基于纯视觉的感知、预测算法研究通常仅针对上述流程中的单个子问题的image-view方案如3D目标检测、语义地图识别或物体运动预测通过前融合或后融合的方式将不同网络的感知结果进行融合。这导致了在搭建整体系统时只能以线性结构堆叠多个子模块。尽管上述方式能够实现问题分解、便于独立的学术研究但这种串行架构具有几个重要的缺陷
1上游模块的模型误差会不断向下游传递然而在子问题的独立研究中通常以真值作为输入这使得累积误差会显著影响下游任务的性能表现。
2不同子模块中存在重复的特征提取、维度转换等运算过程但是串行架构无法实现这些冗余计算的共享不利于提升系统的整体效率。
3无法充分利用时序信息一方面时序信息可以作为空间信息的补充更好地检测当前时刻被遮挡的物体为定位物体的位置提供更多参考信息。另一方面时序信息能够帮助判断物体的运动状态在缺少时序信息的条件下基于纯视觉的方法几乎无法有效判断物体的运动速度。
区别于image-view方案BEV方案通过多摄像头或雷达将视觉信息转换至鸟瞰视角进行相关感知任务这样的方案能够为自动驾驶感知提供更大的视野并且能够并行地完成多项感知任务。同时BEV感知算法是要将信息融合到BEV空间中来所以这有利于探索2D到3D的转换过程。
与此同时BEV感知算法当前在3D检测任务上与现有的点云方案有有差距。探索视觉BEV感知算法有利于降低成本。一套LiDAR设备的成本往往是视觉设备的10倍所以视觉BEV是未来的真理但同时带来的巨大数据量需要巨大的计算资源。
小结
总结起来目前基于纯视觉的感知、预测算法研究通常只针对单个子问题进行处理并通过融合不同网络的结果来构建整体系统。然而这种串行架构存在一些重要的缺陷如误差传递、冗余计算和缺乏时序信息利用等问题。
相比之下BEV方案通过将视觉信息转换到鸟瞰视角在自动驾驶感知中提供更广阔的视野并能并行完成多项感知任务。同时BEV感知算法可以将信息融合到BEV空间中有助于探索2D到3D的转换过程。
然而当前的BEV感知算法在3D检测任务上与点云方案相比仍存在差距。虽然视觉BEV具备降低成本的优势但也带来了巨大的数据量和计算资源需求。因此未来的研究需要解决这些挑战以进一步提高BEV感知算法在自动驾驶中的应用。