一起做网站逛市场,蓝色大气网站源码,dedecms5.7 财经网站,自己电脑如何做网站服务器摘要
论文链接#xff1a;https://arxiv.org/pdf/2303.09030.pdf 最近关于遥感目标检测的研究主要集中在改进有向边界框的表示#xff0c;但忽略了遥感场景中呈现的独特先验知识。这种先验知识很有用#xff0c;因为如果没有参考足够远的上下文#xff0c;可能会错误地检测…摘要
论文链接https://arxiv.org/pdf/2303.09030.pdf 最近关于遥感目标检测的研究主要集中在改进有向边界框的表示但忽略了遥感场景中呈现的独特先验知识。这种先验知识很有用因为如果没有参考足够远的上下文可能会错误地检测到微小的遥感对象而不同类型对象所需的远程上下文可能会有所不同。在本文中我们考虑了这些先验并提出了大选择性核网络LSKNet。LSKNet可以动态调整其大的空间感受野以更好地模拟遥感场景中各种对象的测距上下文。据我们所知这是第一次在遥感目标检测领域探索大和选择性核机制。LSKNet在标准基准上创造了新的最先进得分即HRSC201698.46%mAP、DOTA-v1.081.85%mAP和FAIR1M-v1.047.87%mAP。基于类似的技术我们在2022年大湾区国际算法竞赛中排名第二。代码可在https://github.com/zcablii/Large-Selective-Kernel-Network获取。
简介
遥感目标检测【75】是计算机视觉的一个领域专注于在航空图像中识别和定位感兴趣的物体如车辆或飞机。近年来一个主流趋势是生成准确符合被检测物体方向的边界框而不是简单地在它们周围绘制水平框。因此大量的研究集中在改进遥感目标检测中有向边界框的表示。这主要是通过开发专门的检测框架实现的如RoI Transformer【12】、Oriented R-CNN【62】和R3Det【68】以及有向框编码技术如滑动顶点【64】和中点偏移框编码【62】。此外还提出了许多损失函数包括GWD【70】、KLD【72】和调制损失【50】以进一步提高这些方法的性能。
然而尽管取得了这些进展但相对较少的研究考虑到遥感图像中存在的强先验知识。航空图像通常是以高分辨率从鸟瞰角度拍摄的。特别是航空图像中的大多数物体可能尺寸很小仅根据其外观难以识别。相反成功识别这些物体往往依赖于它们的上下文因为周围环境可以提供有关其形状、方向和其他特征的宝贵线索。根据对主流遥感数据集的分析我们确定了两个重要的先验 1遥感图像中物体的准确检测通常需要广泛的上下文信息。如图1a所示遥感图像中物体检测器使用的有限上下文通常会导致分类错误。例如在上面的图像中检测器可能会由于其典型特征将交叉口分类为交叉路口但实际上它并不是交叉路口。同样在下面的图像中检测器可能会由于大树的存在将交叉口分类为非交叉路口但这同样是错误的。这些错误之所以发生是因为检测器只考虑了物体附近有限的上下文信息。图1b中的船舶和车辆示例中也可以观察到类似的场景。 2不同类型对象所需的广泛上下文信息差异很大。如图2所示遥感图像中准确目标检测所需的上下文信息量根据所检测对象的类型可以有很大的不同。例如由于独特的可区分场地边界线足球场可能需要相对较少的额外上下文信息。相比之下环岛可能需要更大范围的上下文信息以区分花园和环形建筑。交叉口特别是那些被树木部分覆盖的交叉口由于相交道路之间的长程依赖关系通常需要极大的感受野。这是因为树木和其他障碍物的存在使得仅基于外观识别道路和交叉口本身变得困难。其他物体类别如桥梁、车辆和船舶为了准确检测和分类也可能需要不同尺度的感受野。
为了解决遥感图像中准确检测物体的挑战这通常需要广泛和动态的上下文信息范围我们提出了一种名为大选择核网络LSKNet的新方法。我们的方法涉及动态调整特征提取主干的感受野以便更有效地处理被检测物体的不同广泛上下文。这是通过空间选择性机制实现的该机制有效地对由一系列大深度核处理的特征进行加权然后在空间上合并它们。这些核的权重是根据输入动态确定的使模型能够自适应地使用不同的大核并根据需要调整每个目标的空间感受野。
据我们所知我们提出的LSKNet是第一个研究和讨论在遥感目标检测中使用大和选择性核的模型。尽管我们的模型很简单但它在三个流行的数据集上实现了最先进的性能HRSC201698.46%mAP、DOTA-v1.081.64%mAP和FAIR1M-v1.047.87%mAP超过了先前公布的结果。此外我们证明了我们的模型的行为完全与上述两个先验相符这反过来也验证了所提出机制的有效性。
2.相关工作
2.1.遥感目标检测框架
高性能的遥感目标检测器通常依赖于RCNN【52】框架该框架由区域提议网络和区域CNN检测头组成。近年来对RCNN框架提出了几种变种。两阶段的RoI Transformer【12】在第一阶段使用全连接层旋转候选水平锚框然后提取框内的特征进行进一步的回归和分类。SCRDet【71】使用注意力机制来减少背景噪声改善对拥挤和小物体的建模。Oriented R-CNN【62】和Gliding Vertex【64】引入了新的框编码系统以解决旋转角度周期性导致的训练损失不稳定问题。一些方法【29、79、56】将遥感检测视为点检测任务【67】为解决遥感检测问题提供了另一种方式。
而不是依赖于提议的锚框一阶段检测框架直接从网格密集采样的锚框中分类和回归有向边界框。一阶段的S2A网络【20】通过有向特征对齐和方向不变特征提取提取鲁棒的对象特征。另一方面DRN【46】利用注意力机制动态细化主干提取的特征以进行更准确的预测。与Oriented R-CNN和Gliding Vertex不同RSDet【50】通过引入调制损失来解决回归损失的不连续性。AOPG【6】和R3Det【68】采用渐进回归的方法从粗到细的粒度精炼边界框。除了基于CNN的框架AO2-DETR【9】将基于transformer的检测框架DETR【4】引入遥感检测任务带来了更多的研究多样性。
2.2.大核网络
基于Transformer的模型如视觉TransformerViT【14、49、55、11、1】、Swin Transformer【36、22、63、76、47】和PVT【57】在计算机视觉中受到了欢迎因为它们在图像识别任务中的有效性。研究【51、65、78、42】表明大感受野是它们成功的关键因素。有鉴于此最近的工作表明精心设计的具有大感受野的卷积网络也可以与基于Transformer的模型高度竞争。例如ConvNeXt【37】在其主干中使用7×7深度卷积从而在下游任务中取得了显著的性能改进。此外RepLKNet【13】甚至通过重新参数化使用31×31卷积核实现了引人注目的性能。后续工作SLaK【35】通过核分解和稀疏组技术进一步将核大小扩展到51×51。VAN【17】引入了大核的高效分解作为卷积注意力。同样SegNeXt【18】和Conv2Former【25】证明了大核卷积在调制具有更丰富上下文的卷积特征中起着重要作用。
2.3.注意力/选择机制
注意力机制是一种简单而有效的方法可以增强各种任务的神经表示。通道注意力SE块【27】使用全局平均信息对特征通道进行重加权而空间注意力模块如GENet【26】、GCNet【3】和SGE【31】通过空间掩码增强了网络对上下文信息的建模能力。CBAM【60】和BAM【48】结合了通道注意力和空间注意力以利用两者的优点。
除了通道/空间注意力机制外核选择也是一种自适应和有效的动态上下文建模技术。CondConv【66】和动态卷积【5】使用并行核自适应地从多个卷积核中聚合特征。SKNet【30】引入了具有不同卷积核的多个分支并沿通道维度选择性地将它们组合起来。ResNeSt【77】通过将输入特征图划分为几个组来扩展SKNet的思想。与SKNet类似SCNet【34】使用分支注意力来捕捉更丰富的信息使用空间注意力来提高定位能力。可变形卷积网络【80、8】为卷积单元引入了灵活的核形状。
我们的方法与SKNet【30】最为相似但两种方法有两个关键区别。首先我们提出的选择机制明确依赖于通过分解的一系列大核这与大多数现有的基于注意力的方法不同。其次我们的方法在空间维度上自适应地聚合大核之间的信息而不是像SKNet那样在通道维度上进行聚合。这种设计对于遥感任务更直观和有效因为逐通道的选择无法对图像空间中不同目标的空间变化进行建模。详细的结构比较如图3所示。
3.方法
3.1. LSKNet架构
整体架构是建立在最近流行的结构[37,58,17,25,74] (参见补充材料(SM)中的细节)上并使用重复的构建块。
本文使用的LSKNet不同变体的详细配置如表1所示。每个LSKNet块由两个剩余子块组成:大内核选择(LK Selection)子块和前馈网络(FFN)子块。核心LSK模块(图4)嵌入在LK选择子块中。它由一系列大核卷积和一个空间核选择机制组成稍后将详细阐述。
3.2.大核卷积
根据引言中所述的先验2建议对一系列多个长程上下文进行建模以进行自适应选择。因此我们提出通过显式地将大核卷积分解为一系列具有大增长核和增加膨胀的深度卷积来构建大核卷积。具体来说该系列中第i个深度卷积的核大小k、膨胀率d和感受野RF的扩展定义如下 k i − 1 ≤ k i ; d 1 1 , d i − 1 d i ≤ R F i − 1 , (1) k_{i-1} \leq k_{i} ; d_{1}1, d_{i-1}d_{i} \leq R F_{i-1}, \tag{1} ki−1≤ki;d11,di−1di≤RFi−1,(1) R F 1 k 1 , R F i d i ( k i − 1 ) R F i − 1 (2) R F_{1}k_{1}, R F_{i}d_{i}\left(k_{i}-1\right)R F_{i-1} \tag{2} RF1k1,RFidi(ki−1)RFi−1(2)
核大小和膨胀率的增加确保了感受野足够快速地扩展。我们在膨胀率上设置了一个上限以保证膨胀卷积不会在特征图之间引入间隙。例如我们可以将一个大核分解为2或3个深度卷积如表2所示它们的理论感受野分别为23和29。
所提出的设计有两个优点。首先它显式地产生了具有不同大感受野的多个特征这使得后续的核选择更容易。其次顺序分解比简单地应用一个更大的核更有效。如表2所示在相同的理论感受野下我们的分解大大减少了与标准大卷积核相比的参数数量。为了从输入X中获得具有丰富上下文信息的特征我们应用了一系列具有不同感受野的分解深度卷积 U 0 X , U i 1 F i d w ( U i ) , (3) \mathbf{U}_{0}\mathbf{X}, \quad \mathbf{U}_{i1}\mathcal{F}_{i}^{d w}\left(\mathbf{U}_{i}\right), \tag{3} U0X,Ui1Fidw(Ui),(3)
其中 F i d w ( ⋅ ) \mathcal{F}_{i}^{d w}(\cdot) Fidw(⋅)是具有核 k i k_{i} ki和膨胀 d i d_{i} di的深度卷积。假设有N个分解的核每个核进一步由 1 × 1 1\times 1 1×1卷积层 F 1 × 1 ( ⋅ ) \mathcal{F}^{1 \times 1}(\cdot) F1×1(⋅)处理 U ~ i F i 1 × 1 ( U i ) , for i in [ 1 , N ] , (4) \widetilde{\mathbf{U}}_{i}\mathcal{F}_{i}^{1 \times 1}\left(\mathbf{U}_{i}\right) \text {, for } i \text { in }[1, N], \tag{4} U iFi1×1(Ui), for i in [1,N],(4)
允许每个空间特征向量的通道混合。然后提出了一个选择机制根据获得的多尺度特征动态选择不同对象的核这将在后面介绍。
3.3. 空间核选择
为了增强网络关注最相关空间上下文区域以检测目标的能力我们使用空间选择机制在不同尺度上从大卷积核中选择特征图。首先我们将从不同核和不同感受野范围获得的特征进行连接 U ~ [ U ~ 1 ; … ; U ~ i ] , (5) \widetilde{\mathbf{U}}\left[\widetilde{\mathbf{U}}_{1} ; \ldots ; \widetilde{\mathbf{U}}_{i}\right], \tag{5} U [U 1;…;U i],(5) 然后通过对 U ~ \widetilde{\mathbf{U}} U 应用基于通道的平均池化和最大池化表示为 P avg ( ⋅ ) 和 P max ( ⋅ ) ) \mathcal{P}{\text {avg }}(\cdot)和\left.\mathcal{P}{\max }(\cdot)\right) Pavg (⋅)和Pmax(⋅))有效地提取空间关系 S A avg P avg ( U ~ ) , S A max P max ( U ~ ) (6) \mathbf{S A}_{\text {avg }}\mathcal{P}_{\text {avg }}(\widetilde{\mathbf{U}}), \mathbf{S A}_{\text {max }}\mathcal{P}_{\max }(\widetilde{\mathbf{U}}) \tag{6} SAavg Pavg (U ),SAmax Pmax(U )(6)
其中 S A a v g \mathbf{S} \mathbf{A}_{a v g} SAavg和 S A max \mathbf{S} \mathbf{A}_{\max } SAmax是平均池化和最大池化的空间特征描述符。为了允许不同空间描述符之间的信息交互我们将空间池化的特征连接起来并使用卷积层 F 2 → N ( ⋅ ) \mathcal{F}^{2 \rightarrow N}(\cdot) F2→N(⋅)将池化的特征具有2个通道转换为N个空间注意力图 S A ^ F 2 → N ( [ S A avg ; S A max ] ) (7) \widehat{\mathbf{S A}}\mathcal{F}^{2 \rightarrow N}\left(\left[\mathbf{S} \mathbf{A}_{\text {avg }} ; \mathbf{S A}_{\max }\right]\right) \tag{7} SA F2→N([SAavg ;SAmax])(7)
对于每个空间注意力图 S A ^ i \widehat{\mathbf{S A}}_{i} SA i应用sigmoid激活函数以获得每个分解的大核的个体空间选择掩码 S A ‾ i σ ( S A ^ i ) , (8) \overline{\mathbf{S A}}_{i}\sigma\left(\widehat{\mathbf{S A}}_{i}\right) \text {, } \tag{8} SAiσ(SA i), (8)
其中 σ ( ⋅ ) \sigma(\cdot) σ(⋅)表示sigmoid函数。然后来自分解大核序列的特征通过其相应的空间选择掩码进行加权并由卷积层 F ( ⋅ ) \mathcal{F}(\cdot) F(⋅)融合以获得注意力特征 S \mathbf{S} S S F ( ∑ i 1 N ( S A i ~ ⋅ U ~ i ) ) (9) \mathbf{S}\mathcal{F}\left(\sum_{i1}^{N}\left(\widetilde{\mathbf{S A}_{i}} \cdot \widetilde{\mathbf{U}}_{i}\right)\right) \tag{9} SF(i1∑N(SAi ⋅U i))(9)
LSK模块的最终输出是输入特征 X 和 S \mathbf{X}和\mathbf{S} X和S之间的逐元素乘积类似于[17,18,25] Y X ⋅ S . (10) \mathbf{Y}\mathbf{X} \cdot \mathbf{S} \text {. } \tag{10} YX⋅S. (10)
图4显示了LSK模块的详细概念说明其中我们直观地演示了大选择核如何通过自适应地收集不同对象的相应大接受场来工作。
4. 实验
4.1. 数据集
HRSC2016 [39]是一个用于船舶检测的高分辨率遥感图像数据集。它包含1061张图像其中包含2976个船舶实例。
DOTA-v1.0 [61]由2806张遥感图像组成。它包含15个类别的188282个实例飞机PL、棒球钻石BD、桥梁BR、地面跑道GTF、小型车辆SV、大型车辆LV、船舶SH、网球场TC、篮球场BC、储罐ST、足球场SBF、环形交叉口RA、港口HA、游泳池SP和直升机HC。
FAIR1M-v1.0 [53]是最近发布的遥感数据集由15266张高分辨率图像和超过100万个实例组成。它包含5个类别和37个子类别对象。
4.2. 实现细节
在我们的实验中我们报告了检测模型在HRSC2016、DOTA-v1.0和FAIR1M-v1.0数据集上的结果。为了确保公平性我们采用了与其他主流方法[62, 20, 21]相同的数据集处理方法。更多细节可以在SM中找到。在我们的实验中主干网络首先在ImageNet-1K[10]数据集上进行预训练然后在目标遥感基准上进行微调。在消融研究中我们采用100个epoch的主干网络预训练计划以提高实验效率表3、5、4、6、7。我们采用300个epoch的主干网络预训练策略以追求更高的精度表8、9、10类似于[62, 20, 68, 6]。在主要结果表8、9中“Pre.”列表示网络/主干网络预训练的数据集INImagenet[10]数据集COMicrosoft COCO[33]数据集MAMillion-AID[40]数据集。除非另有说明否则由于Oriented RCNN[62]具有令人信服的性能和效率LSKNet默认在其框架内构建。所有模型都在训练集和验证集上进行训练并在测试集上进行测试。按照[62]我们使用AdamW[41]优化器在HRSC2016数据集上训练模型36个epoch在DOTA-v1.0和FAIR1M-v1.0数据集上训练模型12个epoch。初始学习率设置为0.0004对于HRSC2016和0.0002对于其他两个数据集权重衰减为0.05。我们使用8个RTX3090 GPU批量大小为8进行模型训练并使用单个RTX3090 GPU进行测试。我们在本文中报告的所有FLOPs都是使用1024×1024图像输入计算的。
4.3. 消融实验
在本节中我们报告了DOTA-v1.0测试集的消融研究结果以研究其有效性。
大核分解。决定分解的核数量是LSK模块的关键选择。我们遵循公式1来配置分解的核。当理论感受野固定在29时关于大核分解数量的消融研究结果如表3所示。这表明将大核分解为两个深度大核可以在速度和精度之间取得良好的平衡在FPS每秒帧数和mAP平均精度均值方面都取得了最佳性能。
感受野大小和选择类型。根据我们在表3中的评估我们发现我们提出的LSKNet的最佳解决方案是将大核分解为两个串联的深度核。此外表4显示过小或过大的感受野会阻碍LSKNet的性能而感受野大小约为23被确定为最有效。此外我们的实验表明对于遥感目标检测任务所提出的空间选择方法比通道注意力类似于SKNet[30]更有效。
空间选择中的池化层。我们进行了实验以确定遥感目标检测中空间选择的最优池化层如表5所示。结果表明在我们的LSK模块的空间选择组件中使用最大池化和平均池化可以在不牺牲推理速度的情况下提供最佳性能。
不同检测框架下LSKNet主干的性能。为了验证我们提出的LSKNet主干的通用性和有效性我们在各种遥感检测框架下评估了其性能包括两阶段框架O-RCNN[62]和RoI Transformer[12]以及一阶段框架S2ANet[20]和R3Det[68]。表6中的结果显示与我们提出的LSKNet主干相比ResNet-18的检测性能得到了显著提高同时只使用了其38%的参数和少了50%的FLOPs。
与其他大核/选择性注意力主干的比较。我们还将我们的LSKNet与6种流行的高性能大核或选择性注意力主干模型进行了比较。如表7所示在相似的模型大小和复杂性预算下我们的LSKNet在DOTA-v1.0数据集上优于所有其他模型。
4.4、主要结果
HRSC2016结果。我们在HRSC2016数据集上对LSKNet的性能与12种最先进的方法进行了评估。表8所示的结果表明我们的LSKNet-S在PASCAL VOC 2007[15]和VOC 2012[16]指标下的mAP分别为90.65%和98.46%优于所有其他方法。
在DOTA-v1.0上的结果。我们在DOTA-v1.0数据集上将我们的LSKNet与20种最先进的方法进行了比较如表9所示。我们的LSKNet-T和LSKNet-S分别以81.37%和81.64%的mAP实现了最先进的性能。值得注意的是我们高性能的LSKNet-S在单个RTX3090 GPU上处理1024x1024图像时达到了18.1 FPS的推理速度。
FAIR1M-v1.0的结果。我们将LSKNet与FAIR1M-v1.0数据集上的其他6个模型进行比较如表10所示。结果表明我们的LSKNet-T和LSKNet-S表现得非常好分别达到了最先进的mAP分数46.93%和47.87%大大超过了所有其他模型。
2022年粤港澳大湾区国际算法竞赛。我们的团队为2022年粤港澳大湾区国际算法竞赛实现了一个与LSKNet类似的模型并获得了第二名与第一名获胜者的差距很小。竞赛期间使用的数据集是FAIR1Mv2.0[53]的子集竞赛结果如表11所示。更多细节请参考SM。
4.5、分析
检测结果和EigenCAM[45]的可视化示例如图5所示。它强调了LSKNet-S可以捕获与检测目标相关的更多上下文信息从而在各种困难情况下获得更好的性能这证明了我们之前的(1)。
为了研究每个对象类别的接受野范围我们将Rc定义为类别c的期望选择性射频面积与GT边界框面积的比值: R c ∑ i 1 I c A i / B i I c , (11) R_{c}\frac{\sum_{i1}^{I_{c}} A_{i} / B_{i}}{I_{c}}, \tag{11} RcIc∑i1IcAi/Bi,(11) A i ∑ d 1 D ∑ n 1 N ∣ S A ~ n d ⋅ R F n ∣ , B i ∑ j 1 J i Area ( G T j ) , (12) A_{i}\sum_{d1}^{D} \sum_{n1}^{N}\left|\widetilde{\mathbf{S A}}_{n}^{d} \cdot R F_{n}\right|, B_{i}\sum_{j1}^{J_{i}} \operatorname{Area}\left(\mathrm{GT}_{j}\right), \tag{12} Aid1∑Dn1∑N SA nd⋅RFn ,Bij1∑JiArea(GTj),(12) 其中 I c I_{c} Ic是仅包含对象类别c的图像数量。 A i A_{i} Ai是所有LSK块中输入图像i的空间选择激活的总和其中D是LSKNet中的块数N是LSK模块中分解的大核数。 B i B_{i} Bi是所有 J i J_{i} Ji个标注的有方向的对象边界框GT的总像素面积。我们在图6中绘制了归一化的 R c R_{c} Rc它代表了不同对象类别所需的相对上下文范围以便更好地观察。
结果表明桥梁类别与其他类别相比需要更多的额外上下文信息这主要是由于其与道路的特征相似并且需要上下文线索来确定其是否被水包围。相反由于球场类别如足球场具有独特的纹理属性特别是球场边界线因此它们需要的上下文信息最少。这与我们的知识相符并进一步支持了先前的观点即不同对象类别所需的相对上下文信息范围差异很大。
我们进一步研究了LSKNet中的核选择行为。对于对象类别cLSKNet-T块的核选择差异 Δ A c \Delta A_{c} ΔAc即较大核选择-较小核选择定义为 Δ A c ∣ S A ~ larger − S A ~ smaller ∣ . (13) \Delta A_{c}\left|\widetilde{\mathbf{S A}}_{\text {larger }}-\widetilde{\mathbf{S A}}_{\text {smaller }}\right| . \tag{13} ΔAc SA larger −SA smaller .(13)
我们在图7中展示了三个典型类别Bridge、Roundabout和Soccerball-field以及每个LSKNet-T块中所有图像的归一化 Δ A c \Delta A_{c} ΔAc。正如预期的那样Bridge的所有块的大核的参与程度高于Roundabout而Roundabout则高于Soccer-ball-field。这与常识相符因为Soccer-ball-field确实不需要大量的上下文因为它自身的纹理特征已经足够独特和具有辨别力。
我们还惊奇地发现了LSKNet跨网络深度的另一种选择模式:LSKNet通常在其浅层中使用较大的核而在较高层中使用较小的核。这表明网络倾向于快速地集中于从低层次的大接受域捕获信息以便更高层次的语义可以包含足够的接受域以便更好地进行区分。
5、结论
在本文中我们提出了用于遥感目标检测任务的大选择核网络(LSKNet)该网络旨在利用遥感图像的固有特征:需要更广泛和适应性的上下文理解。通过调整其大的空间接受场LSKNet可以有效地模拟不同对象类型的不同上下文细微差别。大量的实验表明我们提出的轻量级模型在竞争性遥感基准上达到了最先进的性能。