慈利网站制作,苏州工业园区网站,网站带薪歌手都要怎样做呀,erp软件实施BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
作者单位
PhiGent Robotics
目的
2D 的视觉感知在过去的几年里有了急速的发展#xff0c;涌现出一些优秀的范式工作#xff0c;这些工作有较高的性能#xff0c;可扩展性#xff0c;以及多…BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
作者单位
PhiGent Robotics
目的
2D 的视觉感知在过去的几年里有了急速的发展涌现出一些优秀的范式工作这些工作有较高的性能可扩展性以及多任务的兼容性比如 Mask R-CNN。 但是在自动驾驶感知领域最新的一些 benchmarks 还是有很多不同的范式。比如在 nusences 数据集上就有一些 基于图像的方法比如 FCOS3DPGD等还有一些基于 BEV 的方法比如 PONLSSVPN。 因此本文提出了 BEVDet尝试以一种统一的框架解决不同的任务。
方法
网络结构 BEVDet采用了模块化的设计共由四个模块组成
image-view 编码器view transfomerBEV encodertask-specific head
Image-view Encoder
backbone neck 的结构 backoneresnetSwinTransformer neckFPNFPN-LSSFPN-LSS只是将1/32输入分辨率的特征上采样到1/16输入分辨率并将其与 backbone 生成的 concat 起来。
View Transformer
view transfomer 的作用是将图像特征 转换到 BEV 空间下。这里采用的是 LSS
BEV Encoder
BEV encoder 进一步 编码 BEV 空间中的的特征。bev encoder 的结构与 backone 和 neck 类似就是一些残差块组成的网络。
Head
就是一些基于不同任务的head。3D目标检测的 head 的目标是检测出 可移动物体的位置scale方向和移动速度等属性。 这里直接使用了 centerpoint中的 第一阶段的head基于 LiDAR 的head PointPillar 和 VoxelNet。
数据增强策略
图像空间下的增强策略
对于一些常见的数据增强策略比如 翻转 裁剪旋转都可以使用一个 3x3的转换矩阵来表示。 当我们将图像空间的坐标投影到3D空间时可以通过数据在增强的转换矩阵来实现数据增强的操作这样不会改变数据的在BEV空间分布。
BEV空间下的数据增强策略
多个view 图像只能生成一个 BEV 空间下的样本所以模型容易拟合 BEV空间下的特征。于是采用了一些 2D空间下的增强策略包括翻转缩放旋转。在实践中需要同时在 view transformer 输出的特征 和 3D目标 上作相应的操作以保证空间一致性。需要注意的是这种增强方法的先决条件是 view transfomer 可以将 image view encoder 和 后续的模块解耦、
Scale-NMS
在2D图像空间下因为透视关系的存在多个物体之间存在遮挡重叠所以使用 经典的 nms 可以降低冗余的预测。但是在 BEV空间下预测的物体几乎是没用重叠的也就是说 物体的 iou 几乎是0所以传统的 iou 就失效了。 于是本文提出了 scale-nms在执行 nms 之前先对不同类别的物体 乘上各自的 scale除了障碍物类别之外因为障碍物的大小范围太过这样就可以使 nms 重新发挥作用了。
相关资料
https://zhuanlan.zhihu.com/p/557613388