当前位置：首页 > news >正文

ftp如何修改网站备案号wordpress 更新页面

news 2025/11/15 10:26:00

ftp如何修改网站备案号,wordpress 更新页面,怎么查自己是不是团员,企业所得税政策最新2024税率0.摘要图像级弱监督语义分割是一个具有挑战性的问题#xff0c;近年来得到了深入研究。大多数先进的解决方案利用类激活图#xff08;CAM#xff09;。然而#xff0c;由于全监督和弱监督之间存在差距#xff0c;CAM几乎无法用作对象掩码。在本文中#xff0c;我们提出了…0.摘要图像级弱监督语义分割是一个具有挑战性的问题近年来得到了深入研究。大多数先进的解决方案利用类激活图CAM。然而由于全监督和弱监督之间存在差距CAM几乎无法用作对象掩码。在本文中我们提出了一种自监督的等变注意机制SEAM以发现额外的监督信息并缩小差距。我们的方法基于这样一个观察结果等变性是完全监督语义分割中的一个隐含约束其像素级标签在数据增强期间与输入图像进行相同的空间变换。然而这个约束在通过图像级监督训练的CAM上丢失了。因此我们提出了对来自不同变换图像的预测CAM进行一致性正则化为网络学习提供自监督。此外我们提出了一个像素相关模块PCM它利用上下文外观信息并通过其相似的邻居对当前像素的预测进行细化进一步改善CAM的一致性。在PASCAL VOC 2012数据集上进行了大量实验证明我们的方法在相同级别的监督下优于现有的最先进方法。代码已在网上发布。 1.引言语义分割是一项基础的计算机视觉任务旨在对图像进行像素级别的分类预测。近年来由于深度学习研究的蓬勃发展语义分割模型的性能取得了巨大的进步[6,23,38]推动了许多实际应用如自动驾驶和医学图像分析。然而与其他任务如分类和检测相比语义分割需要收集耗时且昂贵的像素级别的类别标签。最近许多工作致力于弱监督语义分割WSSS利用弱监督方法如图像级别的分类标签、草图和边界框试图达到与全监督方法相当的分割性能。本文重点研究通过图像级别的分类标签进行语义分割。据我们所知大多数先进的弱监督语义分割方法都基于类激活图CAM[39]这是一种通过图像分类标签来定位对象的有效方法。然而CAM通常只覆盖对象的最具区分性的部分并且在背景区域错误地激活可以分别总结为欠激活和过激活。此外当通过仿射变换对相同的输入图像进行增强时生成的CAMs不一致。如图1所示对相同的输入图像应用不同的缩放变换会导致生成的CAMs存在显著的不一致性。这些现象的根本原因来自于全监督和弱监督语义分割之间的监督差距。本文提出了一种自监督的等变注意机制SEAM以缩小上述监督差距。SEAM通过对来自不同变换图像的CAMs进行一致性正则化为网络学习提供自监督。为了进一步提高网络预测的一致性SEAM引入了像素相关模块PCM它捕捉每个像素的上下文外观信息并通过学习到的亲和性注意力图修正原始的CAMs。SEAM是通过具有等变交叉正则化ECR损失的孪生网络实现的该损失在不同的分支上对原始的CAMs和修正的CAMs进行正则化。图1显示我们的CAMs在各种变换的输入图像上都是一致的并且比基线方法具有更少的过激活和欠激活区域。广泛的实验证明了我们方法的优越性提供了定量和定性的结果。总结起来我们的主要贡献如下我们提出了一种自监督的等变注意机制SEAM将等变正则化与像素相关模块PCM结合起来以缩小全监督和弱监督语义分割之间的监督差距。我们设计了具有等变交叉正则化ECR损失的孪生网络结构有效地将PCM和自监督耦合起来生成既有较少过激活又有较少欠激活区域的CAMs。在PASCAL VOC 2012数据集上的实验证明我们的算法仅使用图像级别注释就实现了最先进的性能。图1.不同尺度输入图像生成的CAMs的比较。(a)传统的CAMs。(b)我们的SEAM预测的CAMs它们在重新缩放时更加一致。 2.相关工作近年来深度学习的发展在全监督语义分割方面取得了一系列突破[6,11,23,37,38]。在本节中我们介绍一些工作包括弱监督语义分割和自监督学习。 2.1.弱监督语义分割与全监督学习相比弱监督语义分割WSSS使用弱标签来指导网络训练例如边界框[7,18]、涂鸦[22,30]和图像级别分类标签[19,25,27]。一些先进的研究利用图像级别的分类标签来训练模型。其中大多数方法通过优化分类网络生成的类激活图CAM[39]来逼近分割掩码。SEC [19]提出了种子、扩展和约束三个原则来优化CAMs这个方法被许多其他研究所采用。对抗擦除[15,32]是一种流行的CAM扩展方法它擦除CAM中最具区分性的部分引导网络从其他区域学习分类特征并扩展激活。AffinityNet [2]训练另一个网络来学习像素之间的相似性生成一个过渡矩阵并多次与CAM相乘以调整其激活范围。IRNet [1]从边界激活图生成过渡矩阵并将该方法扩展到弱监督实例分割。此外一些研究尝试在WSSS框架中聚合自注意力模块[29,31]例如CIAN [10]提出了跨图像注意力模块通过显著性图的指导从包含相同类别对象的两个不同图像中学习激活图。 2.2.自监督学习自监督学习方法不同于使用大量标注数据来训练网络它旨在设计预训练任务以生成无需额外手工注释的标签。有许多经典的自监督预训练任务例如相对位置预测[9]、空间变换预测[12]、图像修复[26]和图像着色[20]。在某种程度上生成对抗网络[13]也可以被视为一种自监督学习方法鉴别器的真实性标签不需要手动注释。预训练任务生成的标签为网络提供了自我监督使其能够学习更强大的特征表示。自监督学习所学到的特征在某些任务上可以替代ImageNet [8]预训练的特征例如目标检测[9]和局部分割[17]。考虑到全监督和弱监督语义分割之间存在较大的监督差距我们的直觉是应该寻求额外的监督来缩小这一差距。由于图像级别的分类标签对于网络学习适应对象边界的分割掩码来说过于弱我们设计了使用理想分割函数的等变性作为预训练任务为只有图像级别注释的网络学习提供额外的自我监督。 3.方法本节详细介绍了我们的SEAM方法。首先我们阐述了我们工作的动机。然后我们介绍了通过共享权重的孪生网络实现等变正则化的方法。我们提出的像素相关模块PCM被集成到网络中以进一步提高预测的一致性。最后我们讨论了SEAM的损失设计。图2显示了我们SEAM网络的结构。图2.我们提出的SEAM方法的孪生网络架构。SEAM是等变正则化ER第3.2节和像素相关模块PCM第3.3节的集成。通过特别设计的损失函数第3.4节修正后的CAM不仅在仿射变换下保持一致还能很好地适应对象的轮廓。 3.1.动机我们将理想的像素级语义分割函数表示为Fws(·)其参数为ws。对于每个图像样本I分割过程可以表示为Fws(I)s其中s表示像素级分割掩码。这个表达式在分类任务中也是一致的。通过额外的图像级别标签l和池化函数Pool(·)分类任务可以表示为Pool(Fwc(I))l其中参数wc是分类网络的参数。大多数弱监督语义分割方法基于一个假设即最优的分类和分割参数满足wcws。因此这些方法首先训练一个分类网络然后去除池化函数来处理分割任务。然而很容易发现分类和分割函数的特性是不同的。假设对于每个样本存在一个仿射变换A(·)分割函数更倾向于具有等变性即Fws(A(I))A(Fws(I))。而分类任务更注重不变性即Pool(Fwc(A(I)))l。尽管分类函数的不变性主要是由于池化操作引起的但Fwc(·)没有等变性约束这使得在网络学习过程中很难实现与分割函数相同的目标。需要将额外的正则化器集成进来以缩小完全监督和弱监督学习之间的监督差距。自注意力是一种广泛接受的机制可以显著提高网络的逼近能力。它通过捕捉上下文特征依赖关系来修正特征图这也符合大多数弱监督语义分割方法使用像素相似性来改进原始激活图的思想。根据[31]的表示一般的自注意力机制可以定义为这里的x和y表示输入和输出特征具有空间位置索引i和j。输出信号由C(xi)∑j f(xi,xj)进行归一化。函数g(xj)给出了每个位置上输入信号xj的表示并且它们都通过相似性权重f(xi,xj)在位置i进行聚合f(xi,xj)计算了嵌入空间中的像素亲和度的点积。为了提高网络对一致预测的能力我们提出了SEAM方法将自注意力与等变正则化相结合。 3.2.等变正则化在完全监督语义分割的数据增强阶段像素级标签应该与输入图像应用相同的仿射变换。这为网络引入了一个隐含的等变约束。然而考虑到弱监督语义分割只能访问图像级别的分类标签这里缺少了隐含的约束。因此我们提出了如下的等变正则化方法这里F(·)表示网络A(·)表示任意的空间仿射变换例如缩放、旋转、翻转。为了在原始网络上集成正则化我们将网络扩展为一个共享权重的孪生结构。其中一个分支将变换应用于网络输出另一个分支在网络前馈之前对图像进行相同的变换。两个分支的输出激活图被正则化以保证CAMs的一致性。 3.3.像素相关模块尽管等变正则化为网络学习提供了额外的监督但只通过经典的卷积层很难实现理想的等变性。自注意力是一种有效的模块可以捕捉上下文信息并改进逐像素的预测结果。为了将由公式1和公式2给出的经典自注意力模块集成到CAM的改进中可以将公式写成其中ˆy表示原始的CAMy表示修订后的CAM。在这个结构中原始的CAM通过函数g嵌入到残差空间中。每个像素根据公式2给出的相似性与其他像素进行聚合。三个嵌入函数θφg可以通过单独的1×1卷积层来实现。为了通过上下文信息进一步改进原始的CAM我们在网络末端提出了一个像素相关模块PCM用于整合每个像素的低级特征。PCM的结构参考了自注意力机制的核心部分并进行了一些修改并通过等变正则化的监督进行训练。我们使用余弦距离来评估像素间的特征相似性在这里我们在归一化的特征空间中进行内积以计算当前像素i与其他像素之间的亲和度。可以通过对公式1进行一些修改将f集成进去如下所示相似性通过ReLU激活以抑制负值。最终的CAM是原始CAM与归一化相似性的加权和。图3给出了PCM结构的示意图。与经典的自注意力相比PCM去除了残差连接以保持原始CAM的相同激活强度。此外由于另一个网络分支为PCM提供像素级别的监督这种监督并不像真实值那样准确因此我们通过去除嵌入函数φ和g来减少参数以避免在不准确的监督上过拟合。我们使用ReLU激活函数和L1归一化来屏蔽不相关的像素并生成一个在相关区域更平滑的亲和力注意力图。图3. PCM的结构其中H、W、C/C1/C2分别表示特征图的高度、宽度和通道数。 3.4.SEAM的损失设计图像级别的分类标签l是唯一可以在这里使用的人工标注监督。我们在网络末端采用全局平均池化层来生成用于图像分类的预测向量z并采用多标签软边缘损失进行网络训练。分类损失定义为针对C-1个前景对象类别的损失如下所示形式上我们将孪生网络的原始CAM表示为ˆyo和ˆyt其中ˆyo来自具有原始图像输入的分支而ˆyt来自经过变换的图像。全局平均池化层分别将它们聚合成预测向量zo和zt。分类损失在两个分支上计算如下分类损失为目标定位提供了学习监督。为了保持输出的一致性需要对原始CAM进行等变正则化的聚合。原始CAM上的等变正则化ER损失可以很容易地定义为这里的A(·)是在孪生网络的变换分支中已经应用于输入图像的仿射变换。此外为了进一步提高网络的等变学习能力将原始的CAM和浅层特征输入PCM进行细化。直观的想法是在修正后的CAM之间引入等变正则化yo和yt。然而在我们的早期实验中PCM的输出图像很快陷入局部最小值导致图像中的所有像素都被预测为同一类。因此我们提出了一个等变交叉正则化ECR损失如下所示 PCM的输出通过孪生网络的另一个分支上的原始CAM进行正则化。这种策略可以避免PCM细化过程中CAM的退化。虽然CAM是通过前景目标分类损失来学习的但在PCM处理过程中不应忽视许多背景像素。原始的前景CAM在这些背景位置上具有零向量无法产生梯度来将特征表示推向这些背景像素之间更接近。因此我们定义背景分数如下其中ˆyi,c是位置i上类别c的原始CAM的激活得分。我们通过将每个像素的激活向量归一化并将前景非最大激活抑制为零然后与额外的背景分数连接起来。在推断过程中我们只保留前景激活结果并将背景分数设置为ˆyi,bkg α其中α是硬阈值参数。总之SEAM的最终损失定义如下分类损失用于粗略定位目标ER损失用于缩小像素级和图像级监督之间的差距。ECR损失用于将PCM与网络的主干集成在一起以便在各种仿射变换下进行一致的预测。网络架构如图2所示。我们在实验部分详细介绍了网络训练设置并对每个模块的有效性进行了仔细研究。 4.实验 4.1.实现细节我们在PASCAL VOC 2012数据集上评估了我们的方法该数据集包含21个类别的注释即20个前景对象和背景。官方的数据集划分为1464张训练图像1449张验证图像和1456张测试图像。按照语义分割的常见实验协议我们从SBD [14]中获取额外的注释构建了一个包含10582张图像的增强训练集。值得注意的是在网络训练过程中只有图像级别的分类标签可用。使用平均交并比mIoU作为评估分割结果的指标。在我们的实验中我们采用ResNet38 [35]作为主干网络输出步长为8。我们通过个别的1×1卷积层从第3和第4阶段提取特征图并将它们的通道数量分别减少到64和128。在PCM中这些特征与图像连接并通过另一个1×1卷积层输入到公式5中的函数θ中。图像通过最长边随机缩放在[448,768]范围内然后通过448×448进行裁剪作为网络输入。模型在4个TITAN-Xp GPU上进行训练批量大小为8共进行8个epoch。初始学习率设为0.01按照多项式策略lritr lrinit(1−max itritr)γ进行衰减其中γ0.9。在ECR损失上使用在线难例挖掘OHEM保留最大的20%像素损失。在网络训练过程中我们在PCM流和网络主干之间的交点处切断梯度的反向传播以避免相互干扰。这个设置将PCM简化为一个纯粹的上下文细化模块它仍然可以与网络的主干同时进行训练。原始CAM的学习不会受到PCM细化过程的影响。在推断过程中由于我们的SEAM是一个共享权重的孪生网络只需要恢复一个分支。我们在推断过程中采用多尺度和翻转测试来生成伪分割标签。 4.2.消融研究为了验证我们的SEAM的有效性我们从修正后的CAMs在PASCAL VOC 2012训练集上生成了像素级的伪标签。在我们的实验中我们遍历了所有的背景阈值选项并给出了伪标签的最佳mIoU而不是与相同的背景阈值进行比较。因为最高的伪标签准确率代表了CAMs与真实分割掩码之间的最佳匹配结果。具体来说前景激活覆盖率会随着平均激活强度的增加而扩大而与真实标签的匹配程度则不会改变。只有当CAMs不仅增加了平均激活强度而且与真实标签更加匹配时最高的伪标签准确率才会得到改善。与基准线的比较表1列出了我们方法中每个模块的消融研究结果。结果显示使用具有等变正则化的孪生网络相比基准线提高了2.47%。我们的PCM实现了显著的性能提升提高了5.18%。在等变交叉正则化损失上应用OHEM之后生成的伪标签在PASCAL VOC训练集上进一步实现了55.41%的mIoU。我们还对基准线CAM与稠密CRF进行测试以改进预测结果。结果显示稠密CRF将mIoU提高到52.40%低于SEAM的结果55.41%。在将稠密CRF作为后处理进行聚合后我们的SEAM可以进一步提高性能达到56.83%。图4显示SEAM生成的CAMs具有较少的过度激活和更完整的激活覆盖其形状与基准线相比更接近于真实分割掩码。为了进一步验证我们提出的SEAM的有效性我们可视化了PCM生成的亲和性注意力图。如图5所示所选的前景和背景像素在空间上非常接近而它们的亲和性注意力图却差异很大。这证明PCM可以从自监督中学习到边界敏感的特征。改进的定位机制一种直观的想法是改进的弱监督定位机制将提高伪分割标签的mIoU。为了验证这个想法我们简单地评估了在聚合我们提出的SEAM之前的GradCAM[28]和GradCAM[3]。然而表2给出的评估结果表明无论是GradCAM还是GradCAM都无法缩小完全监督和弱监督语义分割任务之间的监督差距因为最佳mIoU结果没有改善。我们认为改进的定位机制只是设计用来表示与对象相关的部分没有受到低级信息的任何约束这对于分割任务来说是不合适的。这些改进的定位方法生成的CAMs并没有变得更与真实掩码匹配。以下实验证明了我们提出的SEAM能够显著提高CAM的质量以适应对象掩码的形状。仿射变换理想情况下公式3中的A·可以是任何仿射变换。在孪生网络中进行了几种变换以评估它们对等变正则化的影响。如表3所示有四种候选的仿射变换0.3下采样率的缩放、[-20,20]度的随机旋转、15像素的平移和水平翻转。首先我们提出的SEAM在网络训练中简单地采用了缩放。表3显示伪标签的mIoU从47.43%提高到55.41%。表3还显示简单地结合不同的变换效果不太明显。当缩放变换与翻转、旋转和平移分别结合时只有翻转的改进很小。在我们看来这是因为翻转、旋转和平移之间的激活图太相似无法产生足够的监督。在其他实验中我们只保留缩放作为关键变换采用0.3的下采样率。数据增强和推理与原始的单支网络相比孪生结构在实践中扩大了图像大小的增强范围。为了调查改进是否源于缩放范围我们评估了具有更大缩放范围的基准模型表4给出了实验结果。结果表明仅增加缩放范围不能提高生成的伪标签的准确性这证明性能的改进来自PCM和等变正则化的组合而不是数据增强。在推理过程中常常使用多尺度测试通过聚合不同尺度图像的预测结果来提高最终性能。这也可以看作是一种提高预测等变性的方法。为了验证我们提出的SEAM的有效性我们评估了单尺度和多尺度测试生成的CAMs。表5显示我们提出的模型在单尺度和多尺度测试中均优于基准模型具有更高的峰值性能。改进的来源CAM质量的提高主要源自更完整的激活覆盖范围或更少的过度激活区域。为了进一步分析我们SEAM的改进来源我们定义了两个指标来代表欠激活和过度激活的程度其中TPc表示类别c的真正预测像素数量FPc和FNc分别表示假正和假负。这两个指标排除了背景类别因为背景的预测与前景相反。具体而言如果CAM没有完全的激活覆盖会有更多的假负区域mFN的值会更大。相对地更大的mFP意味着有更多的假正区域即CAM过度激活。基于这两个指标我们收集了基准模型和我们的SEAM的评估结果然后绘制了图6中的曲线显示了基准模型和我们的方法之间的巨大差距。SEAM实现了更低的mFN和mFP这意味着我们方法生成的CAM具有更完整的激活覆盖和更少的过度激活像素。因此SEAM的预测映射更好地适应了地面真实分割的形状。此外SEAM的曲线在不同的图像尺度上更加一致证明等变正则化在网络学习过程中起作用并有助于改进CAM的质量。表1. SEAM中每个部分的消融研究结果。ER等变正则化。PCM像素相关模块。OHEM在线难例挖掘。CRF条件随机场。表2. 使用语义分割度量mIoU评估各种弱监督定位方法的结果。图4. CAM的可视化。(a)原始图像。(b)地面真值分割。(c)基准CAM。(d)SEAM生成的CAM。SEAM不仅抑制了过度激活还将CAM扩展到完整的对象激活范围。图5. 前景和背景上亲和性注意力图的可视化。红色和绿色的十字表示选定的像素具有类似特征表示的蓝色。表3. 对等变正则化的各种变换实验。简单地聚合不同的仿射变换不能带来显著的改进。表4. 改变增强重缩放范围的实验。这里SEAM的重缩放率设置为0.5。表5. 不同的单尺度和多尺度测试实验。图6. 过度激活和不足激活的曲线。较低的mFN曲线表示较少的不足激活区域较低的mFP表示较少的过度激活区域。 4.3.与当下方法的比较为了进一步提高伪像素级标注的准确性我们参考了[2]的工作在我们修订后的CAM上训练了一个基于亲和度网络的模型。最终合成的伪标签在PASCAL VOC 2012训练集上达到了63.61%的mIoU。然后我们使用ResNet38作为主干网络在这些伪标签上以全监督的方式训练了经典的分割模型DeepLab [5]以获得最终的分割结果。表6显示了验证集上每个类别的mIoU表7给出了先前方法的更多实验结果。与基准方法相比我们的SEAM在相同的训练设置下显著提升了验证集和测试集上的性能。此外我们的方法在仅使用图像级标签的情况下在PASCAL VOC 2012测试集上展现了最先进的性能。需要注意的是我们的性能提升既不源自更大的网络结构也不是改进的显著性检测器。性能的提升主要来自于额外的自监督和PCM的协作这为分割任务产生了更好的CAM。图7展示了一些定性结果验证了我们的方法在大物体和小物体上的良好表现。图7. PASCAL VOC 2012验证集上的定性分割结果。(a) 原始图像。(b) 真实标签。(c) 使用我们的伪标签重新训练的DeepLab模型预测的分割结果。表6. 在仅使用图像级监督的情况下对PASCAL VOC 2012验证集进行的类别性能比较。表7. 我们的方法与其他最先进的WSSS方法在PASCAL VOC 2012数据集上的性能比较。 5.概括在本文中我们提出了一种自监督等变注意机制SEAM通过引入额外的自监督来缩小完全监督和弱监督语义分割之间的监督差距。SEAM通过利用等变正则化将自监督嵌入到弱监督学习框架中强制要求从各种变换后的图像预测的CAM保持一致。为了进一步提高网络生成一致CAM的能力我们设计了一个像素相关模块PCM通过学习像素间的相似性来改进原始的CAM。我们的SEAM采用了一个具有高效正则化损失的连体网络结构进行实现。生成的CAM不仅在不同的变换输入上保持一致而且更好地适应了真实掩码的形状。通过我们合成的像素级伪标签重新训练的分割网络在PASCAL VOC 2012数据集上达到了最先进的性能这证明了我们SEAM的有效性。

查看全文

http://www.zqtcl.cn/news/911681/