宁波市政务网站建设和管理标准,建设网站编程语言,做网站网站关键词是什么,阿里云 wordpress建站本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学于2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难#xff0c;提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性#xff0c;作者识别…本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学于2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性作者识别出批量归一化泛化能力不足的问题该问题主要是
1、维度降低对通道注意力的不良影响
不是我记得7年前发表于arXiv的CS大类中SENet论文这个事已经说了啊转念一想哦本文是从分析坐标CA角度再思考这个问题并给出解决方法的emmmm好吧
2、注意力生成过程的复杂性
嗯给计算机添加眼睛确实复杂
本文简单来讲
1、作者提出融入1D卷积和组归一化特征增强技术。这种方法能够通过有效地编码两个1D位置特征图而无需维度降低实现准确地区分感兴趣区域同时允许轻量级的实现。
2、作者精心设计了ELA中的三个超参数从而形成了四个不同版本ELA-TELA-BELA-S和ELA-L以满足不同视觉任务纽匹如图像分类、目标检测和语义分割的特定需求。
3、ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明所提出的ELA模块在上述三种视觉任务中均优于当前最先进的方法。 论文地址
2403.01123.pdf (arxiv.org)
本文复杂来讲
1、Introduction
深度卷积神经网络CNNs已成为计算机视觉领域中一个重要的研究方向它在图像分类、目标检测和语义分割方面取得了显著的进展。一些值得关注的模型如AlexNetResNetYOLO和MobileNet都为这一进步做出了贡献。
尽管Transformer已经引入了许多进步但深度卷积神经网络拥有自己有利的归纳偏置使它们能够有效地从小型和中型数据集中学习——这是Transformer所缺乏的能力。因此设计更高效的网络架构仍然是当代研究者需要解决的重要挑战。在深度CNN领域注意力机制被提出作为模拟人类认知行为的手段。这种机制使神经网络能够关注相关信息同时忽略不重要的细节最终提高网络的学习能力。 一个显著的例子是SE块注意力它利用2D全局池化将空间维度压缩到通道维度从而促进增强特征学习。然而SE块只考虑编码通道间信息忽视了特征图的空间位置信息。尽管BAM和CBAM提取了空间注意力但它们未能建模对视觉任务至关重要的长距离依赖同时也减少了输入特征图的通道维度。
为此开发了坐标注意力(CA)方法将空间位置信息嵌入通道注意力中并允许移动网络准确捕捉长距离空间相互关系。这种改进有利于各种卷积神经网络架构。然而CA也表现出明显的局限性源于其不足的泛化能力和对通道维度降低的负面影响。
众所周知图像的空间维度包含了至关重要的位置信息。另一方面现有的注意力机制要么未能有效利用这一空间信息要么在利用的同时牺牲了通道的维度。本文的关注点是回答以下问题作者能否以更高效的方式学习空间注意力这种方法应使作者能够在不损害输入特征图的通道维度的同时在空间维度上获得准确的位置预测同时保持注意力模块的轻量级特性。
为了回答这个问题作者再次回顾一下CA机制。CA模块是通过两个步骤设计的。在第一步中使用了条带池化来生成包含输入张量空间维度上水平和垂直坐标信息的特征图。在第二步中两个方向上的上述特征图都经过两个2D卷积然后进行批量归一化BN并使用非线性激活函数最终得到注意力。
显然CA的设计过程相对复杂涉及两个方向上特征图的多次分离与合并。尽管两个2D卷积增强了坐标信息但它们也减少了通道维度对生成的注意力产生了负面影响。此外将BN整合到CA中引入了显著的弱点。例如过小的迷你批次大小可能会对整个模型产生不利影响并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。 因此本文提出了用于深度CNN的Efficient Local AttentionELA模块它准确地捕获了感兴趣区域的位置保持了输入特征图通道的维度并保持了其轻量级特性如图2(c)所示。与CA相似ELA在空间维度上采用条带状池化以获取水平和垂直方向的特征向量保持窄的核形状以捕获远程依赖并防止不相关区域影响标签预测从而在各自的方向上产生丰富的目标位置特征。ELA独立地处理上述每个方向的特征向量以获得注意力预测然后使用乘积操作将它们组合起来确保感兴趣区域的准确位置信息。
具体来说在第二步中应用1D卷积与两个特征向量局部交互可以选择调整核大小来表示局部交互的覆盖范围。产生的特征向量经过分组归一化GN[40]和非线性激活函数处理以生成两个方向的位置注意力预测。最终的位置注意力通过将两个方向的位置注意力相乘得到。与2D卷积相比1D卷积更适合处理序列信号并且更轻量、更快。GN与BN相比展现出可比较的性能和更好的泛化能力。 表1展示了关键的卷积神经网络注意力模块指出了它们在通道维度降低DR、长距离依赖和轻量级设计方面的特点其中轻量级模型具有的参数少于SE。从表中可以看出作者的ELA在所有这三个方面都表现出色。作者通过在ImageNetPascal VOC和MS COCO等数据集上的实验结果来评估作者方法的有效性见表5 实验结果表明与ImageNet top-1的分类准确度相比作者提出的方法提高了2.39%。此外作者的方法在目标检测和语义分割方面表现出最显著的性能提升。因此作者提出的ELA方法比目前最流行的注意力机制更具竞争力。
本文的贡献总结如下 作者分析了坐标注意力CA并通过实验验证了其在卷积神经网络CNN结构中对批量归一化BN和通道维度减少的负面影响。 基于上述分析作者提出了一种轻量级且高效的局部注意力ELA模块。这个模块帮助深度CNN更准确地定位感兴趣的目标在仅增加少量参数的情况下显著提高了CNN的整体性能。 在包括ImageNet、MS COCO和Pascal VOC在内的流行数据集上的大量实验结果表明作者提出的方法在性能上超越了当前的最新注意力方法同时保持了有竞争力的模型复杂度。
2 Related Work
人们普遍认为注意力机制在提高深度卷积神经网络CNNs性能方面起着至关重要的作用。SE块首次成功尝试将注意力机制用于学习通道注意力。随后注意力机制在这两个方向上取得了显著的进展 仅聚合通道特征 将通道特征与空间特征整合。
具体来说CBAM 同时利用平均池化和最大池化沿着通道维度和空间维度组合特征。同时GCNet 是一个轻量级的注意力网络它采用了自注意力机制非局部网络以及挤压激励网络等技术。SA-Net 建立在空间注意力和通道注意力结合的基础上并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet 和 SA-Net 都结合了空间注意力和通道注意力。
GSoP 引入了二阶池化以实现对整幅图像的高阶统计建模从而增强了深度卷积网络的非线性建模能力。另一方面ECA-Net 利用一维卷积生成通道注意力权重与 SE 块相比显著降低了建模复杂性。GSoP 和 ECA-Net 都属于通道增强的聚合方法。
然而在上述提到的注意力网络中要么在空间维度上缺乏长距离依赖性要么在通道维度上进行缩小。长距离空间依赖性的缺失使得精确定位感兴趣的空间物体以及获取重要物体的位置信息变得具有挑战性。尽管通过通道维度降低可以减少模型的复杂性但它也破坏了通道与它们权重之间的直接对应关系。
为了解决这些限制作者提出了一种有效的ELA方法该方法能够有效捕捉长距离空间依赖性并消除了通道缩小对注意力网络造成的负面影响。
3、Conclusion
本文介绍了一种创新的注意力机制称为高效局部注意力ELA旨在增强卷积神经网络的表示能力。ELA以其轻量级和直接的结构简化了准确定位感兴趣区域的过程。实验结果表明ELA是一种即插即用的注意力方法不需要减少通道维度。此外ELA在多种深度CNN架构中一致地实现了显著的性能提升。