wordpress gif主题,seo兼职怎么收费,公司网站去哪里做,山西建站BEV下统一的多传感器融合框架 - FUTR3D
引言
在自动驾驶汽车或者移动机器人上#xff0c;通常会配备许多种传感器#xff0c;比如#xff1a;光学相机、激光雷达、毫米波雷达等。由于不同传感器的数据形式不同#xff0c;如RGB图像#xff0c;点云等#xff0c;不同模态…BEV下统一的多传感器融合框架 - FUTR3D
引言
在自动驾驶汽车或者移动机器人上通常会配备许多种传感器比如光学相机、激光雷达、毫米波雷达等。由于不同传感器的数据形式不同如RGB图像点云等不同模态的数据的信息密度和特性也不同如何能够有效地融合各个模态的数据使得车或机器人能够准备地感知周围的场景是一个非常关键的问题。
下面就由陈炫耀同学来介绍我们的论文FUTR3D: A Unified Sensor Fusion Framework for 3D Detection[1]网站链接FUTR3D。
之前多模态融合的工作主要是为特定的传感器组合设计算法比如用图像去增强点云PointPaintingMVP、用图像检测框去辅助点云检测Frustum PointNet等。而在FUTR3D中我们试着在BEV下构建一个通用的可容纳各种不同传感器的3D目标检测框架。 FUTR3D的主要贡献如下 通用框架。FUTR3D是第一个通用的可适应各种不同传感器的端到端的三维目标检测框架。 有效性。它在Camera, LiDAR, CameraLiDAR , CameraRadar等不同的传感器组合情况下都能实现领先效果。 低成本。FUTR3D在Camera4线LiDAR的情况下能够超过32线LiDAR的结果因此能够促进低成本的自动驾驶系统。 附赠自动驾驶学习资料和量产经验链接
FUTR3D方案 FUTR3D主要包括Modality-Specific Feature Extractor, Modality-Agnostic Feature Sampler和Loss。
Modality-Specific Feature Extractor
对于不同的传感器输入数据我们根据它们各自的模态形式分别用不同的backbone去提取它们的特征。 对于camera images采用ResNet50/101和FPN来对每张图片提取多尺度的特征图。 对于LiDAR point clouds用PointPillar或者VoxelNet来提取点云的特征。 对于Radar point clouds用3层MLP来提取每个Radar point的特征。
Modality-Agnostic Feature Sampler
模态无关的特征采样器下面简称MAFS是FUTR3D的detection head与各个模态的特征进行交互的部分。
类似于DETR3DMAFS含有600个object query每个query会经过一个全连接网络预测出在BEV下的3D reference points。
对于camera部分我们依照DETR3D的做法利用相机的内外参数将reference points投影到image上采集feature得到 cam 。具体做法可以参看上篇文章这里就不详细展开。
对于LiDAR部分我们按照reference points在3D空间中的坐标投影到LiDAR BEV特征上去采集它在LiDAR feature map上对应位置的feature得到 lid 。
对于Radar部分根据每个reference points的位置选取离它最近的10个Radar points的特征并聚合在一起得到 rad 。
采集得到各个模态的对应特征之后将它们concatenate到一起并经过一个MLP网络投射到一个共同的特征空间中。 之后再利用 fus 以及reference points的位置编码去更新object query的信息。 在FUTR3D中我们同样有6层decoder layer在每层decoder layer中用object query之间的self attention和MAFS去更新object query的信息并且每个query会去通过MLP网络去预测得到bounding box的参数和reference points的offsets去迭代更新每一层的预测结果。
Loss
在loss部分我们先利用Hungarian算法来将每个object query预测得到的bbox去和ground-truth box进行二分图匹配得到最优的matching方案然后对匹配成功的box计算regression L1 loss和classification focal loss没有匹配到gt box的predicted box就只计算classification loss。
实验结果
FUTR3D作为一个通用框架在各个不同传感器的配置下都能取得state-of-the-art的结果超过针对特定输入组合的算法。特别是在低线LiDAR如1线、4线等FUTR3D表现出了很好的鲁棒性结果远超其他方案。值得一提的是在Cameras4线LiDAR的情况下FUTR3D达到了56.8mAP超过了32线LiDAR的sota结果56.6mAPCenterPoint。 表 Cameras和LiDAR融合的结果 表 Cameras和Radar融合的结果
结果分析
由于FUTR3D的通用性我们得以分析各个模态在目标检测中不同的特性。
在CamerasLiDAR融合中Cameras对体积小和距离远的物体有着显著的帮助作用。 表 对不同距离的物体的模型表现
可视化结果
在各种不同传感器配置组合的融合中我们发现一些非常有趣的场景并由其可以对比看出各个不同传感器之间不同的特性。
在Cameras4 Beam LiDAR和32 Beam LiDAR的对比中可以看出即使点云稀疏得多的情况下相机也能极大地帮助检测那些体积小和距离远导致point很少的物体。 图 Cameras4线LiDAR vs. 32线LiDAR对比
在Cameras1线LiDAR和Cameras-only的对比中可以看到即使只有一线LiDAR也可以通过它提供的距离信息来帮助检测。 图 Cameras1线LiDAR vs. Cameras-only 对比
下一篇预告
我们将在下一篇介绍BEV系的多相机多目标跟踪框架MUTR3DMARS Lab的BEV系列未完待续敬请期待
参考
^FUTR3D: A Unified Sensor Fusion Framework for 3D Detection https://arxiv.org/abs/2203.10642