当前位置：首页 > news >正文

网站首页选择入口设计蓝山网站建设

news 2025/11/14 19:35:05

网站首页选择入口设计,蓝山网站建设,成都公司注册核名,随机关键词生成器1.摘要细粒度视觉分类(FGVC)是一项非常具有挑战性的任务#xff0c;它旨在从子类别中识别对象#xff0c;这是由于类间固有的微妙差异。现有的大部分工作主要是通过重用骨干网络提取检测到的判别区域的特征来解决这一问题。然而#xff0c;这种策略不可避免地使管道变得复…1.摘要细粒度视觉分类(FGVC)是一项非常具有挑战性的任务它旨在从子类别中识别对象这是由于类间固有的微妙差异。现有的大部分工作主要是通过重用骨干网络提取检测到的判别区域的特征来解决这一问题。然而这种策略不可避免地使管道变得复杂并将建议的区域推到包含对象的大多数部分从而无法定位真正重要的部分。近年来视觉变压器(vision transformer, ViT)在传统的分类任务中表现出了强大的性能。变压器的自关注机制将每个补丁令牌链接到分类令牌。在这项工作中我们首先评估了ViT框架在细粒度识别设置中的有效性。然后由于注意链接的强度可以直观地视为令牌重要性的指标我们进一步提出了一种新的部件选择模块该模块可以应用于大多数变压器架构我们将变压器的所有原始注意权重集成到注意图中以指导网络有效准确地选择判别图像补丁并计算它们之间的关系。使用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强变压器的模型命名为transferg并通过在五个流行的细粒度基准上进行实验来展示它的价值在这些基准上我们实现了最先进的性能。为了更好地理解我们的模型给出了定性结果。 2.问题细粒度视觉分类旨在对给定对象类别的子类别进行分类例如鸟类的子类别(Wah et al . 2011;Van Horn et al . 2015)汽车(Krause et al . 2013)飞机(Maji et al . 2013)。由于类间变化小类内变化大并且缺乏注释数据特别是对于长尾类一直被认为是一项非常具有挑战性的任务。得益于深度神经网络的进步(Krizhevsky, Sutskever, and Hinton 2012;Simonyan and Zisserman 2014;He et al . 2016)近年来FGVC的性能取得了稳步的进步。为了避免劳动密集型的部分注释社区目前专注于弱监督的FGVC只有图像级别的标签。目前的方法大致可以分为两类即定位方法和特征编码方法。与特征编码方法相比定位方法具有显式捕获子类之间细微差异的优点具有更强的可解释性和更好的结果 2.1发现早期的定位方法依赖于零件的注释来定位判别区域而最近的研究(Ge, Lin, and Yu 2019a;Liu et al . 2020;丁等人 2019)主要采用区域建议网络(RPN)来提出包含区分区域的边界框。在获得选定的图像区域后将其调整为预定义的大小并再次通过骨干网络转发以获取信息丰富的局部特征。一种典型的策略是单独使用这些局部特征进行分类并采用秩损失(Chen等人)2009)以保持边界框的质量与其最终概率输出之间的一致性。然而这种机制忽略了所选区域之间的关系因此不可避免地鼓励RPN提出包含大部分对象的大边界框而无法定位真正重要的区域。有时这些边界框甚至可以包含大面积的背景。并导致混淆。此外与骨干网相比优化目标不同的RPN模块使网络更难训练骨干网的重用使整个管道变得复杂。 2.2发展最近视觉变压器(Dosovitskiy et al . 2020)在分类任务中取得了巨大的成功这表明将纯变压器直接应用于图像补丁序列利用其固有的注意机制可以捕获图像中的重要区域。下游任务的一系列扩展工作如目标检测(Carion等2020)和语义分割(Zheng等2021;谢等2021;Chen et al . 2021)证实了它具有很强的捕捉全球和本地特征的能力。 Transformer的这些能力使其天生适合FGVC任务因为Transformer的早期远程“接受野”(Dosovitskiy et al . 2020)使其能够定位早期处理层中的细微差异及其空间关系。相比之下cnn主要利用图像的局部性只捕获非常高层的弱远程关系。此外细粒度类之间的细微差异只存在于某些地方因此将捕捉细微差异的过滤器卷积到图像的所有地方是不合理的。 2.3创新基于这一观点本文首次探讨了视觉变换在细粒度视觉分类中的潜力。我们发现直接将ViT应用于FGVC已经产生了令人满意的效果并且可以根据FGVC的特性进行大量的调整以进一步提高性能。具体来说我们提出了零件选择模块该模块可以找到识别区域并去除冗余信息。引入对比损失使模型更具判别性。我们将这个新颖而简单的基于变压器的框架命名为transition并在五种流行的细粒度视觉分类基准(CUB-200-2011, Stanford Cars, Stanford Dogs, nabbirds, iNat2017)上对其进行了广泛的评估。性能比较的概述可以在图1中看到我们的transfer在大多数数据集上优于现有的具有不同主干的SOTA CNN方法。综上所述我们在这项工作中做出了几项重要贡献: 1。据我们所知我们是第一个验证视觉转换器在细粒度视觉分类上的有效性的人它为使用RPN模型设计主导的CNN主干提供了一种替代方案。2. 我们介绍了一种新的神经结构用于细粒度视觉分类它自然地关注对象的最具区别性的区域并在几个基准上实现了SOTA性能。3. 可视化结果说明了我们的transferg能够准确捕获判别图像区域并帮助我们更好地理解它是如何做出正确预测的。 2.4 补充 Fine-Grained Visual Classification 在解决细粒度视觉分类问题方面已经做了很多工作它们大致可以分为两类:定位方法(Ge, Lin, and Yu 2019a;Liu et al . 2020;Yang et al . 2021)和特征编码方法(Yu et al . 2018;郑等人2019;Gao et al . 2020)。前者侧重于训练一个检测网络来定位判别部分区域并再利用这些区域进行分类。后者的目标是通过计算高阶信息或寻找对比对之间的关系来学习更多信息特征。 Localization FGVC Methods 此前一些著作(Branson et al . 2014;Wei, Xie, and Wu(2016)尝试利用零件标注来监督本地化过程的学习过程。然而由于这种标注成本高且通常不可用因此仅使用图像级标签的弱监督部件建议受到越来越多的关注。Ge等人(Ge, Lin, and Y u 2019a)利用Mask R-CNN和基于crf的分割交替提取对象实例和判别区域。Yang等人(Yang et al 2021)提出了一种基于区域特征构建的数据库对全局分类结果进行重新排序的重新排序策略。然而这些方法都需要一个专门设计的模块来提出潜在的区域这些选择的区域需要再次通过主干转发进行最终分类这在我们的模型中是不需要的从而保持了我们管道的简单性。 Feature-encoding Methods 另一种方法侧重于丰富特征表示以获得更好的分类结果。Yu et al (Yu et al 2018)提出了一个分层框架来进行跨层双线性池化。Zheng等人(Zheng et al, 2019)采用群体卷积的思想首先根据信道的语义将信道分成不同的组然后在不改变维数的情况下在每组内进行双线性池化从而可以直接集成到任何现有的主干中。然而这些方法通常是不可解释的因为人们不知道是什么使模型区分具有细微差异的子类别而我们的模型会删除不重要的图像补丁只保留那些包含大部分信息的图像补丁进行细粒度识别。 Transformer 器翻译的研究(Dai et al . 2019;Devlin等人2018;V aswani等人 2017)。受此启发近年来许多研究尝试将变压器应用于计算机视觉领域。最初变压器用于处理CNN骨干网为视频提取的顺序特征(Girdhar et al 2019)。后来变压器模型被进一步扩展到其他流行的计算机视觉任务如物体检测(Carion et al 2020;Zhu et al . 2020)分割(Xie et al . 2021;Wang等2021)目标跟踪(Sun et al . 2020)。最近纯变压器模型正变得越来越流行。ViT (Dosovitskiy et al 2020)是第一个表明将纯变压器直接应用于图像补丁序列可以产生最先进的图像分类性能的工作在此基础上郑等人(Zheng et al 2021)提出了SETR利用ViT作为分割的编码器。He et al (He et al 2021)提出了TransReID该方法将侧信息与JPM一起嵌入到变压器中以提高对象重新识别的性能。在这项工作中我们将ViT扩展到细粒度的视觉分类并证明了它的有效性。 3.网络 3.1整体结构我们建议的转型框架。图像被分割成小块(此处显示的是一个不重叠的分割)并投影到嵌入空间中。变压器编码器的输入包括补丁嵌入以及可学习的位置嵌入。在最后一个变压器层之前应用部件选择模块(PSM)来选择与判别图像补丁对应的令牌并仅使用这些选择的令牌作为输入。最好以彩色观看。属于是特征增强重新标定注意力权重 3.2Vision Transformer as Feature Extractor Image Sequentialization 在ViT之后我们首先将输入图像预处理成一系列平坦的补丁xp。然而原始的分割方法将图像分割成不重叠的小块特别是在分割判别区域时会损害局部相邻结构。为了解决这一问题我们提出了使用滑动窗口生成重叠补丁的方法。具体地说我们用分辨率H * W表示输入图像图像patch的大小为P滑动窗口的步长为s。因此输入图像将被分割成N个patch其中这样两个相邻的斑块共享一个大小为(P−S) * P的重叠区域这有助于更好地保留局部区域信息。一般来说步长S越小性能越好。但是减小S同时需要更多的计算成本所以这里需要做一个权衡。在vit中切块操作是将图像切成均等大小不重合的小切块确实减弱了每个切块之间的联系。使用滑动窗口生成重叠补丁的方法理论上可以加强小切块之间的联系 Patch Embedding. 我们使用可训练的线性投影将矢量化的patch xp映射到潜在的d维嵌入空间。在patch embedding中加入一个可学习的位置embedding来保留位置信息方法如下: 式中N为图像patch的个数E∈R(p2·C)∗D为patch的嵌入投影Epos∈RN∗D为位置嵌入。 Transformer编码器(V aswani et al 2017)包含L层多头自注意(MSA)和多层感知器(MLP)块。因此第l层的输出可以写成: 式中LN(·)为层归一化操作zl为编码后的图像表示。ViT利用最后一个编码器层z0L的第一个令牌作为全局特征的表示并将其转发给分类器头以获得最终的分类结果而不考虑其余令牌中存储的潜在信息。 3.3TransFG Architecture 虽然我们的实验表明纯视觉转换器可以直接应用于细粒度视觉分类并取得令人印象深刻的结果但它不能很好地捕获FGVC所需的局部信息。为此我们提出了零件选择模块(PSM)并应用对比特征学习来扩大混淆子类别之间的表示距离。我们提出的transg框架如图2所示 Part Selection Module 在细粒度视觉分类中最重要的问题之一是如何准确定位相似子类别之间细微差异的判别区域。例如图3显示了来自CUB-200-2011(引文)数据集的一对令人困惑的图像。为了区分这两种鸟类模型需要能够捕捉到非常小的差异即眼睛和喉咙的颜色。在传统的基于cnn的方法中广泛引入区域建议网络和弱监督分割策略来解决这一问题。视觉变形模型具有先天的多头注意机制非常适合于此。为了充分利用注意力信息我们将输入更改为最后一个Transformer Layer。假设模型有K个自注意头输入到最后一层的隐藏特征记为zL−1 [z0L−1;z1L−1,z2L−1···zNL−1]。前几层的注意权值可以写成: 往届作品(Serrano and Smith 2019;Abnar和Zuidema 2020)认为由于嵌入缺乏令牌可识别性原始注意力权重不一定对应于输入令牌的相对重要性特别是对于模型的更高层。为此我们建议对前几层的注意权值进行整合。具体地说我们递归地将矩阵乘法应用于所有层中的原始注意力权重由于最终捕获了信息如何从输入层传播到更高层的嵌入与单层原始注意权值aL−1相比它可以作为选择判别区域的更好选择。然后我们选择A1, A2···AK相对于最终K个不同注意头的最大值的指标。图像特征推理过程中由transformer encoder块进行层层编码一种可能的情况是在前面层中的权重信息到了后面几层被减弱或者隐去但是前面几层的权重信息对于最终任务是有用的。这些位置被用作我们模型的索引以提取zL−1中相应的标记。最后我们将选择的标记与分类标记连接起来作为输入序列表示为: 通过将原始的整个输入序列替换为与信息区域相对应的标记并将分类标记作为输入连接到最后一个Transformer Layer我们不仅保留了全局信息而且还迫使最后一个Transformer Layer专注于不同子类别之间的细微差异同时放弃了不太具有区别性的区域如背景或共同特征。 Contrastive Feature Learning 在ViT之后我们仍然采用PSM模块的第一个令牌zi进行分类。简单的交叉熵损失不足以完全监督特征的学习因为子类别之间的差异可能很小。为此我们采用对比损失Lcon使不同标签对应的分类令牌的相似性最小化并使具有相同标签y的样本的分类令牌的相似性最大化。为了防止损失被容易负的(相似度较小的不同类别样本)所主导我们引入了一个常数裕度α只有相似度大于α的负对才会导致损失Lcon。形式上批量大小为B的对比损失表示为: 其中zi和zj经过l2归一化预处理因此Sim(zi, zj)是zi和zj的点积。综上所述我们的模型是用交叉熵损失Lcross和对比Lcon之和来训练的可以表示为: 其中Lcross(y, y0)是预测标签y0和真实标签y之间的交叉熵损失。 4.实验 4.1实验设置 4.1.1 数据集 CUB-200-2011 (Wahet al. 2011), Stanford Cars (Krause et al. 2013), StanfordDogs (Khosla et al. 2011), NABirds (Van Horn et al. 2015) and iNat2017 (Van Horn et al. 2018). 4.1.2 实验细节除非另有说明否则我们按如下方式实现transferg。首先我们将输入图像的大小调整为448∗448除了iNat2017上的304∗304以进行公平的比较(随机裁剪用于训练中心裁剪用于测试)。我们将图像分割为大小为16的小块滑动窗口的步长设置为12。因此式1中的H、W、P、S分别为448、448、16、12。Eq 9中的边际α设置为0.4。我们从ImageNet21k上预训练的官方vit - b16模型加载中间权重。批量大小设置为16。SGD优化器的动量为0.9。除Stanford Dogs数据集为0.003,iNat2017数据集为0.01外初始化学习率为0.03。我们采用余弦退火作为优化器的调度程序。 4.2对比试验 4.3消融实验 5.结语在这项工作中我们提出了一个新的细粒度识别框架并在四个常见的细粒度基准上取得了最先进的结果。我们利用自注意机制来捕捉最具歧视性的区域。与其他方法产生的边界框相比我们选择的图像补丁要小得多因此通过显示哪些区域真正有助于细粒度分类变得更有意义。这种小图像补丁的有效性还来自于Transformer Layer处理这些区域之间的内在关系而不是依赖于每个区域单独产生结果。为了提高分类令牌的判别能力引入了对比损失。在传统的学术数据集和大规模的竞争数据集上进行了实验以证明我们的模型在多场景下的有效性。定性可视化进一步显示了我们方法的可解释性。随着transferg取得的有希望的结果我们相信基于转换器的模型在细粒度任务上有很大的潜力我们的transferg可以成为未来工作的起点。

查看全文

http://www.zqtcl.cn/news/402298/