网站导航栏目焦点设置,小制作小灯笼,吉林哪里做网站,电子电工技术工程网MapTR v2论文来了#xff0c;本文仅介绍v2相较于v1有什么改进之处#xff0c;如果想了解v1版本的论文细节#xff0c;可见链接。
相较于maptr#xff0c;maptr v2改进之处#xff1a;
在分层query机制中引进解耦自注意力机制#xff0c;有效降低了内存消耗#xff1b;…MapTR v2论文来了本文仅介绍v2相较于v1有什么改进之处如果想了解v1版本的论文细节可见链接。
相较于maptrmaptr v2改进之处
在分层query机制中引进解耦自注意力机制有效降低了内存消耗在训练阶段额外引进一对多预测分支增加正样本数量有效加速模型收敛在透视图(perspective view)和鸟瞰图(bev)增加密集监督有效提升模型性能加入center-line类别利于下游的规划控制提供更多关于模型工作的理论分析将模型框架由2D地图元素结构扩展至3D地图元素预测额外增加关于Argoverse2数据的实验结果。
下面依据改进之处展开说一下。首先看一下v2版本的模型整体结构示意图 Encoder
在encoder阶段maptr v2支持多种pv转bev方法如CVT、LSS、Defirmable Attention、GKT和IPM。为了引入深度信息默认使用基于LSS的BEVPoolv2作为转换方式。
Decoder
在decoder阶段作者引入新的self-Attention变体和cross-Attention变体。
self-Attention变体
maptr采用一般的自注意力机制来交换queries信息计算复杂度为 O ( ( N N v ) 2 ) O((NN_v)^2) O((NNv)2)其中 N N N和 N v N_v Nv分别代表实例queries数量和每个queries点的数量点的数量是固定的但随着实例数的增加其消耗的内存资源也是逐步增加的。在maptr v2中作者提出使用解耦的自注意力机制代替普通的attention具体就是分别在实例queries之间和queries内部做self-attention具体可见上图计算复杂度为 O ( N 2 N v 2 ) O(N^2N_v^2) O(N2Nv2)。有效的降低了内存消耗实验表明这种方式使得模型有更高的性能。
cross-Attention变体
作者在maptr v2文章中提出三种cross-attention方式分别是基于bev的 cross-attention、基于pv的cross-attention和两者集合的cross-attention。其中基于bev的 cross-attention和maptr中的一样这里不在详述基于pv的cross-attention得到预测的参考点集后在特征图上采集各点周围的特征值两者结合的cross-attention就是将结合上述两种方式的attention方法。具体可见上图。
loss函数
一对多损失 maptr v2引入一对多损失方法在训练时额外添加一对多的匹配分支。其中一对一损失即为maptr中定义的损失函数。一对多损失如上图所示将真值的地图元素复制k份地图元素数量增加至 T T T新的真值定义为 Y ′ { y i ′ } i 0 T − 1 Y\left\{y_i\right\}_{i0}^{T-1} Y′{yi′}i0T−1。然后同样在Y和Y使用分层的二分匹配计算损失。对于一对多的匹配分支一个真值地图元素可以匹配k个预测的地图元素。在训练时增加了正样本数量使得decoder收敛更快。
辅助的密集预测损失(Dense Prediction Loss)
为了更好的利用语义和几何信息maptr v2 引入三种辅助的损失函数
Depth Prediction Loss BEV Segmentation Loss PV Segmentation Loss 总的损失函数 Centerline
在v2作者根据LaneGAP提出的路径规划模型在类别中加入一种特殊的地图元素centerline它可以提供方向信息在规划控制里很重要。 加入centerline类别后模型分别在nuscenes和argoverse2数据集上测试结果如上表。
结果
在nuscenes验证集上测试结果
在Argoverse2验证集上测试结果