当前位置：首页 > news >正文

网站线下服务中心建设方案优就业seo

news 2025/11/15 3:03:58

网站线下服务中心建设方案,优就业seo,网页设计与制作课程报告,计算机网络技术招聘信息摘要#xff1a; 提取类激活映射(CAM)可以说是为弱监督语义分割(WSSS)生成伪掩码的最标准步骤。然而#xff0c;我们发现伪掩码不理想的关键是在CAM中广泛使用的二进制交叉熵损失(BCE)。具体来说#xff0c;由于BCE的池化方式是对类别求和#xff0c;CAM中的每个像素可能对…摘要提取类激活映射(CAM)可以说是为弱监督语义分割(WSSS)生成伪掩码的最标准步骤。然而我们发现伪掩码不理想的关键是在CAM中广泛使用的二进制交叉熵损失(BCE)。具体来说由于BCE的池化方式是对类别求和CAM中的每个像素可能对同一接受域中共同出现的多个类做出响应。因此给定一个类其热CAM像素可能会错误地侵犯属于其他类的区域或者非热CAM像素实际上可能是该类的一部分。为此我们介绍了一种简单有效方法:通过使用softmax交叉熵损失(SCE)(称为ReCAM)来重新激活具有BCE的聚合CAM。给定图像我们使用CAM提取每个单个类的特征像素并使用它们与类标签一起使用SCE学习另一个全连接层(在骨干之后)。一旦收敛我们提取ReCAM的方法与CAM相同。由于SCE的对比性质像素响应被分解成不同的类因此期望较少的掩模模糊。对PASCAL VOC和MS COCO的评估表明ReCAM不仅可以生成高质量的掩模还可以在任何CAM变体中支持即插即用开销很小。我们的代码在https://github.com/zhaozhengChen/ReCAM上公开二进制交叉熵Binary Cross-Entropy损失是一种常用的损失函数通常用于二分类问题中。它衡量了两个概率分布之间的差异对于每个类别该损失函数会计算预测概率与实际标签之间的交叉熵然后对所有类别的交叉熵求和得到最终的损失值。热CAMhot CAM和非热CAMnon-hot CAM是指在类激活映射Class Activation MapCAM中的像素响应情况。热CAM指的是被激活为特定类别的像素而非热CAM指的是未被激活为特定类别的像素。在语义分割中热CAM表示被预测为某个类别的像素而非热CAM表示未被预测为该类别的像素。 softmax交叉熵Softmax Cross-Entropy损失是一种常用的损失函数通常用于多分类问题中。在softmax交叉熵损失中首先对模型的原始输出进行softmax操作将其转换为类别概率分布然后计算预测概率与实际标签之间的交叉熵损失。这有助于模型更好地学习多个类别之间的关系并提高分类的准确性。 1. Introduction 弱监督语义分割(wssss)旨在通过使用“弱”标签来降低标注“强”像素级掩码的高成本例如涂鸦[29,36]边界框[7,35]和图像级类标签[1,19,27,28,42,46]。最后一个是最经济但最具挑战性的预算因此是我们在本文中的重点。常见的流程有三个步骤训练一个基于图像级分类标签的多标签分类模型提取每个类别的类别激活图(class activation map, CAM)[51]生成0-1掩码并进行侵蚀和扩张等潜在的细化以全类掩码作为伪标签以标准的全监督方式学习分割模型影响最终分割模型性能的因素有很多但第一步的分类模型绝对是根。我们经常观察到两个常见的缺陷。在A类对象的CAM中存在1)假阳性像素它们被激活为A类但实际标签为B类其中B通常是对A的混淆类而不是语义分割中的特殊类背景;2)属于A类但被错误标记为背景的假阴性像素。 Findings. 当使用具有sigmoid 激活函数的二元交叉熵(BCE)损失训练模型时这些缺陷尤为明显。具体来说sigmoid函数是其中x表示任何单个类的预测logit预测得分。输出输入BCE函数来计算损失。这个损失代表了对应于x的错误分类的惩罚强度。因此BCE损失不是类互斥的——一个类的错误分类不会惩罚其他类的激活。这对于训练多标签分类器是必不可少的。然而当通过这些分类器提取CAM时我们看到了缺点:跨不同类的非排他激活(导致CAM中的假阳性像素);由于部分激活是共享的所以对所有类的激活是有限的(导致假负像素)。 logit通常指的是模型在softmax函数之前的输出可以理解为未经过归一化的原始预测分数。对于多类别分类任务每个类别都有一个对应的logit值表示模型对该类别的置信度或得分。 Motivation.我们进行了一些小规模实验以经验性地展示在使用二元交叉熵损失BCE时 CAM 的质量较差。我们从 MS COCO 2014 中挑选了单标签训练图像约占训练集的20%分别用于训练5类和80类分类器。其中对于5类分类器我们选择了5个有蹄动物类别例如马和牛这些类别在激活方面存在混淆。我们分别使用两种损失函数进行模型训练BCE 损失和 softmax 交叉熵SCE损失——这是分类任务中最常用的损失函数之一。我们使用验证集中的单标签图像来评估模型的分类性能如图1a所示并使用训练集和验证集中的单标签图像来检查模型对对象上正确区域的激活能力——CAM 的质量如图1b所示。图1 我们分别使用二进制交叉熵(BCE)和softmax交叉熵(SCE)损失来训练两个模型。我们的训练集和val集只包含MS COCO的单标签图像[30]。“80类”模型采用完整的标签集。“5蹄”模型只在5蹄动物的样本上进行训练每个样本都会对另一个产生假阳性缺陷例如牛和马之间对于80类模型BCE和SCE产生的分类器质量相同但cam明显不同;SCE模型的cam具有更高的mIoU并且这种优势在验证图像中几乎保持不变。一个小而关键的观察是对于5种有蹄类动物BCE表现出较弱的分类能力。我们指出这是因为BCE的sigmoid激活函数不强制类独占学习混淆了相似类之间的模型。然而SCE是不同的。它的softmax激活函数其中y表示任何负类的预测通过在分母中使用指数项显式地强制类排除。SCE鼓励改进ground truth的logit同时惩罚其他。这对CAM产生了两个影响减少了混淆不同类别模型的假阳性像素;鼓励模型探索减少假负像素的特定类别特征。我们在图1 (b)中展示了经验证据其中SCE对BCE的mIoU改进对于5蹄动物尤其显著。请注意BCE和SCE的功能是不同的。为了对它们进行更具体的比较我们在4.2节中从理论上和经验上阐述了它们产生的梯度之间的比较。 Softmax函数的分母包含了所有类别的指数项之和这意味着每个类别的预测都受到其他类别预测的影响。当某个类别的预测值增加时其他类别的预测值相应地减少因为Softmax函数的性质会使得所有类别的预测概率之和为1。通过在Softmax函数的分母中使用指数项SCE损失函数明确地表明了类别之间的排他性即模型在进行预测时需要考虑所有类别的影响并且通过指数项的方式强调了不同类别之间的竞争关系。这种设计有助于模型更好地学习类别之间的差异提高分类任务的准确性和泛化能力。我们的解决方案是利用 softmax 交叉熵SCE损失函数来训练 CAM 模型。然而直接用 SCE 替换 BCE 对于多标签分类任务并不合理因为不同类别的概率不是独立的。因此我们将 SCE 作为附加损失来重新激活模型并生成 ReCAM。具体而言当模型使用 BCE 收敛时对于图像中标记的每个个体类别我们提取 CAM并以标准化的软掩码格式呈现即没有硬阈值。我们分别将所有掩码应用于特征即由骨干网络输出的特征图块每个掩码“突出显示”对特定类别分类贡献的特征像素。通过这种方式我们将多标签特征分支到一组单标签特征上。因此我们可以使用这些特征和标签来训练一个多类别分类器例如在骨干网络之后插入另一个全连接层。SCE 损失惩罚了由于特征不佳或掩模不佳而导致的任何错误分类。然后反向传播其梯度会改善两者。一旦收敛我们以与 CAM 相同的方式提取 ReCAM。标准化的软掩码格式是指在生成类激活映射CAM时将其表示为一种标准化的软掩码形式而不是使用硬阈值。软掩码是指在像素级别上对特征图进行加权以突出显示对特定类别分类有贡献的像素。软掩码通常是在0到1之间的值表示每个像素对于特定类别的重要性程度。相比之下硬阈值是一种二值化处理方法将连续的数值转换为0或1。在CAM中硬阈值通常用于将连续的类激活映射转换为二值化的掩码以便可视化和分割目标区域。硬阈值化后只有大于阈值的像素被保留为1其余像素被设为0。因此标准化的软掩码格式是指在CAM生成过程中将类激活映射表示为连续的、标准化的像素权重值而不是进行硬阈值化处理得到二值化的掩码。这种方法可以更好地保留像素级别的信息提高对特定类别的定位准确性。 Empirical Evaluations.为了评估ReCAM我们在两个流行的语义分割基准PASCAL VOC 2012[9]和MS COCO 2014[30]上进行了广泛的WSSS实验。WSSS的标准流程是使用CAM[51]作为种子然后部署AdvCAM[23]或IRN[1]等改进方法将种子扩展为伪掩码-用于训练分割模型的标签。我们设计了以下的比较来展示ReCAM的通用性和优越性。1) ReCAM也是种子。我们对ReCAM进行了提取并在此基础上进行了改进结果表明经过严格的改进步骤后仍然保持了相对于CAM的优势。2) ReCAM作为另一种细化方法。我们将ReCAM与现有的细化方法进行比较包括生成掩模的质量以及添加到基线CAM的计算开销[51]。在学习语义分割模型阶段我们使用了基于resnet的DeepLabV2[5]、DeepLabV3[6]和基于transformer的UperNet[41]。因此我们在本文中的贡献是双重的。1)一种简单而有效的生成WSSS伪掩码的方法ReCAM。2)在两种流行的WSSS基准上对ReCAM进行了广泛的评估无论是否纳入了先进的改进方法[1,23]。 2. Related Works 在WSSS的工作中多标签分类和语义分割模型的训练几乎是一致的。下面我们只介绍种子生成和掩码细化的变体。 “种子生成”是指在弱监督语义分割WSSS任务中生成用于训练的初步标记或伪标签的过程。 Seed Generation. Vanilla CAM最初的类激活映射CAM方法通过使用为每个单独类别学习的全连接FC权重来缩放特征图然后通过通道平均、空间归一化和硬阈值化来生成种子掩码。这些种子掩码用于指导模型学习图像中不同类别的语义信息。 GAINGAIN方法将CAM应用于原始图像以生成掩码图像并在这些图像上最小化模型的预测分数从而迫使模型在新的训练中捕获其他区域当前CAM之外的特征。这种方法类似于基于擦除的方法其中擦除方法直接扰动区域在CAM内部并将扰动图像馈送到模型中以生成预期捕获新区域的下一轮CAM。 Score-CAMScore-CAM是一种不同的CAM方法它用新的分数替换了基本CAM中使用的FC权重这些分数是根据通过通道方式而非特定类别激活图遮罩的图像预测而来。 EDAMEDAM是一项最近的工作利用基于CAM的扰动来优化额外的分类器。作者指出他们的ReCAM与EDAM有相似之处但也有两个主要区别首先EDAM使用额外的层来生成特定类别的软掩码而ReCAM的软掩码是直接从CAM的副产品中获得的无需任何参数其次EDAM仍然使用二元交叉熵BCE损失来训练扰动输入而作者通过利用交叉熵损失SCE来检查BCE的局限性并提出了一种不同的训练方法。 Mask Generation. 种子掩码进行细化的方法基于像素关系的方法这些方法利用对象区域周围的语义相似像素来扩展种子掩码。其中一些方法使用随机游走来计算过渡矩阵其中每个元素都是一个相关度分数。相关方法采用不同的过渡矩阵设计。例如PSA 是一个用于预测相邻像素之间语义相关性的 AffinityNet。IRN 则是一个基于像素关系的网络用于估计类别边界图进而计算相关性。另一个方法是 BES它通过使用 CAM 作为伪标签来学习预测边界图。利用显著性图的方法这些方法使用显著性图来对 CAM 进行细化。例如EPS 提出了一种联合训练策略将 CAM 和显著性图结合起来。EDAM 引入了一种后处理方法将显著性图中的自信区域与 CAM 结合起来。迭代后处理方法这些方法利用迭代后处理来细化 CAM。例如OOA 对多次训练迭代生成的 CAM 进行集成。CONTA 通过一系列模型训练和推断的过程来迭代整个 WSSS 过程。AdvCAM 利用相对于输入图像的梯度扰动图像并迭代地寻找新激活的像素这些细化方法都是基于由 CAM 生成的种子掩码。我们的 ReCAM 则是利用 SCE 来重新激活 CAM 中更多的像素因此很容易将其整合进去。在第 5 节中我们进行了广泛的即插即用实验。其他改进 CAM 的想法包括学习特征流形上的类内边界ICD、学习细粒度分类模型SCCAM以及强化 CAM 在图像不同变换下的一致性SEAM。最近的工作 RIB 对信息瓶颈理论进行了仔细分析并提出了重新训练多标签分类模型的方法。我们的 ReCAM 不删除任何激活函数而是添加了基于 softmax 激活的损失函数SCE。另一个区别在于推断阶段。RIB 对每个测试图像需要进行 10 次前向传播和反向传播而 ReCAM 只需要一次前向传播。例如在 PASCAL VOC 2012 数据集上RIB 的推断时间为 8 小时其训练成本与基准 CAM 相同而我们相对基准 CAM 的总成本仅为 0.6 小时。显著性图的像素值表示了对应图像像素的显著性程度数值越高表示该像素越突出或重要。这些值可以是基于像素的颜色、纹理、边缘等特征来计算的。显著性图可以用于图像分割、对象检测、注意力机制等任务中。在对象检测中显著性图可以帮助模型找到图像中的重要区域从而提高检测性能。在注意力机制中显著性图可以指导模型关注图像中的重要区域从而提高模型的性能和鲁棒性。学习特征流形上的类内边界是指在深度学习中的一种技术旨在通过对特征空间中的数据进行建模学习类别之间的边界和区分性特征。特征流形是指数据在高维特征空间中的分布形状和结构类内边界则表示不同类别之间的边界或界限 3. Preliminaries CAM.CAM[51]的第一步是用全局平均池化(GAP)训练一个多标签分类模型然后是一个预测层(例如ResNet的FC层[12])。每个训练样例上的预测损失由BCE函数计算公式如下: 其中z[k]表示第k类的预测logit σ(·)为sigmoid函数k为前景对象类的总数(在数据集中)。Y [k]是第k个类的图像级标签其中1表示该类存在于图像中否则为0。一旦模型收敛我们将图像x输入其中提取出现在x中的第k类CAM: wk表示第k类对应的分类权值(如ResNet的FC层)f(x)表示GAP之前的x的特征图。请注意为了简单起见我们假设模型的分类头始终是单个FC层并使用w表示其权重。如何从模型中提取特定类别的CAM。CAM是一种用于可视化深度学习模型在图像分类任务中的激活区域的技术。具体来说提取第k类CAM的公式通常包括以下步骤使用输入图像x通过模型如卷积神经网络得到特征图f(x)。根据模型的结构和参数计算第k类CAM的权重w_k。使用特征图f(x)和权重w_k应用相应的操作如加权求和或卷积操作得到第k类CAM的热力图M_k。因此提取第k类CAM的公式描述了如何从模型的特征图中提取出与第k类别相关的激活区域以便可视化和理解模型在特定类别上的激活情况。这有助于解释模型的决策过程并帮助理解模型对不同类别的响应方式。通过除以 max(ReLU(A_k))CAM_k(x) 的值被归一化到 0 到 1 之间使得最大激活区域的数值为 1其他区域相对于最大激活区域的重要性可以通过相对数值大小进行比较。 Pseudo Masks.有几个选项可以从CAM生成伪掩码: 将CAM阈值设置为0-1掩码采用IRN精炼CAM[1]这是一种广泛使用的精炼方法通过分类模型迭代细化CAM例如使用AdvCAM [23];级联选项3和2。在图2中我们在插入ReCAM的情况下演示了这些选项。我们将在4.1节详细阐述这些内容。图2 利用ReCAM为WSSS生成伪掩码的流水线。种子生成和掩码生成两个步骤我们的ReCAM是一个插入种子生成步骤的模块。掩码生成有以下几种选择:1)直接将ReCAM作为伪掩码;2)用最常用的细化方法IRN对ReCAM进行细化[1];3)通过ReCAM模型迭代推断出更好的掩模;4)级联选项3和2。学习ReCAM模型的细节如图3所示。表2显示了这些选项的总体比较结果。 Semantic Segmentation.这是WSSS的最后一步。我们使用伪掩码以完全监督的方式来训练语义分割模型目标函数为: 其中yi;j和zi;j分别表示在像素(i;j) 的标签和预测logitYi;j [k]和zi;j [k]分别表示Yi;j和zi;j的第k个元素。H和W是图像的高度和宽度K是类的总数。K1意味着包括背景类。 L_ss 是交叉熵损失函数用于计算模型的损失值。交叉熵损失函数通常用于多分类任务中用于衡量模型输出的概率分布与真实标签之间的差异。在实现中我们使用了 DeepLab 的变体 [5, 6]并结合了 ResNet-101 [12]参考了相关的研究工作 [1, 21, 23, 45]。此外我们还采用了最近的模型 UperNet [41]其使用了更强大的主干网络——Swin Transformer [31]。 4. Class Re-Activation Maps (ReCAM) 在第4.1节中我们详细阐述了重新激活分类模型并从中提取ReCAM的方法。需要注意的是我们也将我们的方法命名为“ReCAM”。在第4.2节中我们通过理论和实证比较SCE与BCE的梯度来验证ReCAM中独占类别学习的优势。 4.1. ReCAM Pipeline Backbone and Multi-Label Features.我们使用标准的ResNet-50[12]作为主干(即特征编码器)提取特征遵循相关工作[1,21,23,45]。给定一个输入图像x和它的多热类标签y我们表示特征编码器的输出为f(x)。C表示通道数H和W分别表示高度和宽度。K是数据集前景类的总数请注意图31为了简洁起见特征提取过程被省略了。2特征f(x)在上面的块中写成f通常表示多个对象。图3ReCAM的培训框架。在上面的块中它是使用BCE的多标签分类器的常规训练。为简洁起见省去了通过主干提取特征的过程。我们提取每个类的CAM然后将其(作为规范化软掩码)应用于特征映射f上以获得特定于类的特征fk。在下面的块中我们使用fk及其单标签来学习具有SCE损失的多类分类器。这种损耗的梯度在包括骨干网在内的整个网络中反向传播。在图三中Sigmoid和Softmax模块是用于处理模型输出的激活函数其作用如下 Sigmoid模块Sigmoid函数将实数映射到0到1之间的区间其公式为σ(x) 1 / (1 e^(-x))。在二分类问题中Sigmoid函数常用于将模型输出转换为概率值表示某个类别的预测概率。在图三中Sigmoid模块可能用于将模型输出的logits转换为0到1之间的概率值以便进行二分类任务的预测。 Softmax模块Softmax函数将实数向量映射到一个概率分布其公式为softmax(x)_i e^(x_i) / Σ_j e^(x_j)。Softmax函数常用于多分类问题中将模型输出的logits转换为各个类别的概率分布以便进行多分类任务的预测。在图三中Softmax模块可能用于将模型输出的logits转换为多个类别的概率分布。这些激活函数并不直接生成0到1的序列而是将模型输出进行适当的转换以便得到符合概率分布的输出结果用于进行分类任务的预测。sigmoid和softmax函数在深度学习中常用于处理分类问题中的输出将原始的logits转换为概率值以便进行后续的决策和预测。在图三中激活函数后面的标签是通过模型的预测结果生成的。具体来说模型在经过Sigmoid或Softmax激活函数后会输出对每个类别的概率值或得分。这些概率值或得分可以被用来生成标签。在多分类任务中通常会选择概率值最高的类别作为预测结果即将概率值最大的类别作为预测的标签。这样模型的输出经过Softmax激活函数后可以得到每个类别的概率分布然后选择概率最高的类别作为预测结果。在二分类任务中经过Sigmoid激活函数后输出的概率值可以被阈值通常是0.5进行判断大于阈值的类别被认为是正类小于阈值的类别被认为是负类。因此激活函数后面的标签是根据模型输出的概率值或得分生成的根据任务的不同二分类或多分类选择不同的生成方式来确定最终的预测标签。 FC Layer-1 with BCE Loss. 在传统的CAM模型中特征f(x)首先通过GAP层然后将结果馈入FC层进行预测[51]。因此预测logits可以表示为然后使用z和图像级标签y来计算BCE损失。方程(1)给出了一个元素相关的公式。 Extracting CAM. 我们根据特征 f(x) 和相应的全连接层权重 wk利用公式2提取每个单独类别 k 的 CAM。为了简洁起见我们将 CAMk(x) 表示为 Mk ∈ 。 Single-Label Feature. 如图3所示我们使用Mk作为软蒙版应用于f(x)以提取类特定特征fk(x)。我们计算Mk和f(x)的每个通道之间的元素乘法如下所示: 其中和表示乘法前后的单个通道(通过使用Mk) c的取值范围为1 ~ c, c为特征映射(即通道)的个数。特征映射块fk(x)(每个包含C个通道)对应于图3中的示例f1;f2;f3。 FC Layer-2 with SCE Loss.每个fk(x)都有一个单一的对象标签(即第k个位置为1的one-hot标签)然后我们将其提供给FC Layer-2(见图3)学习多类分类器因此我们对x有了新的预测logits: 其中FC2具有与FC1相同的架构。通过这种方式我们成功地将基于bce的多标签图像模型转换为基于sce的单标签特征模型。SCE损失公式为: 其中y[k]和分别表示y和的第k个元素,我们使用Lsce的梯度来更新包含主干的模型。因此我们重新激活BCE模型的总体目标函数如下: 其中λ表示BCE和SCE之间的平衡。请注意使用对FC1进行重新优化也包括在内因为我们需要在学习期间使用FC1来生成更新的 soft masks Mk。 Extracting ReCAM. 重新激活后我们将图像x输入其中提取其每个类k的ReCAM如下: 式中为第k类对应的分类权值。由于我们有两个FC层我们的实现将w可选为:1)w, 2) w, 3)w⊕w或4)w⊗w其中⊕和⊗分别是元素的加法和乘法。我们将在5.2节中展示这些选项的性能。 Refining ReCAM (Optional). 如第3节所述改进ReCAM有几种选择:1)AdvCAM[23]通过对抗性逐步扰动图像x迭代地改进ReCAM; t ∈ [1, T] 表示对抗性步骤的索引即迭代的步数t为第t步。x^t 表示在第t步的操作图像即经过扰动后的图像。k 和 j 分别代表正类和负类用于区分CAM中的不同类别。ξ 和 µ 是超参数用于调节对抗性损失函数的权重这些超参数与文献[23]中的相同。M 1 { 0.5} 是用于正则化的限制性掩码用于限制CAM的优化范围。最终经过优化的激活图是通过对所有迭代步骤中的进行加权求和得到的其中使用了AdvCAM [23]中的方法不进行最大归一化处理。 2IRN [1] 方法使用ReCAM作为输入并训练一个像素间关系网络IRNet来估计类别边界图 B。然后通过应用随机游走算法和转移概率矩阵 T 来进一步优化ReCAM。正则化的限制性掩码指的是一种用于限制CAMClass Activation Map优化范围的掩码。在AdvCAM方法中通过引入这样的掩码可以对CAM的生成过程进行约束使得CAM在优化过程中只关注特定区域或特定像素从而提高CAM的准确性和稳定性。具体来说这里的限制性掩码 M 1 {ReCAM_k(x_{t-1}) 0.5} 表示对上一步生成的CAM中大于0.5的像素位置进行标记将其作为限制性掩码。这意味着在当前优化步骤中CAM只会在这些被标记的像素位置上进行调整和优化而其他像素位置则不会受到影响。通过使用正则化的限制性掩码可以有效地控制CAM的生成范围避免过度优化或不必要的变化同时确保CAM在关注的区域内得到更准确的激活响应从而提高模型的性能和泛化能力。其中t表示迭代次数vec(·)表示向量化。最后我们使用作为图像的像素级标签,其中k表示图像中的每个正类以训练语义分割模型。 4.2. Justification: BCE vs CE 在本节中我们证明了在ReCAM中引入SCE损失的优势。从理论和实证两方面比较了SCE和BCE对分类模型优化的影响。对于任何输入图像设z表示预测logitsy表示独热标签。根据推导链式法则BCE和SCE在logits上的损失梯度可推导为: 其中σsig和σ soft分别代表sigmoid和softmax函数。从理论上讲。为便于分析我们考虑二元类(K 2)的情形其正类p负类q。Eq.(12)可进一步推导为: 然后我们考虑了zp和zq的不同情况以比较正类p(1,3)和负类q(2,4)的梯度项的大小.A) zp zq:负类logit远大于正类logit。这种情况非常罕见大多数是由于错误的标签。在这种情况下||①||和||②||小于0.5但是||③||和||④||趋近于1SCE收敛更快B) zp zq。这在模型收敛时出现。4个梯度项都接近于0不能区分。正类别positive class和负类别negative class是指待分类的对象或样本所属的两个不同类别。这两个类别通常是模型需要区分和预测的目标类别。正类别positive class正类别是指模型需要识别或预测的目标类别也可以称为“感兴趣类别”或“正例”。在二分类任务中正类别通常表示某种特定的目标类别例如“猫”、“狗”等。在多分类任务中每个类别都有一个对应的正类别。负类别negative class负类别是指除了正类别之外的其他类别通常表示不是目标类别的类别也可以称为“非感兴趣类别”或“负例”。在二分类任务中负类别通常表示与正类别相对的另一类别例如在“猫狗分类”任务中“狗”可能是负类别。在多分类任务中除了正类别之外的所有类别都被视为负类别。在训练和评估分类模型时正类别和负类别的区分非常重要因为模型的性能评估通常基于对这两个类别的预测准确性。通过对正类别和负类别进行有效的区分和预测模型可以更好地完成分类任务并提高准确率。梯度是损失函数对模型参数的偏导数它表示了损失函数在参数空间中的变化率。梯度的大小代表了参数更新的速度和方向即在当前参数值下损失函数增加最快的方向。梯度项的大小可以反映以下几个方面的信息收敛速度梯度的大小可以反映模型在当前参数值下的收敛速度。如果梯度的大小较大说明当前参数值距离最优值较远模型可能需要更大的步长来更新参数以减小损失函数。相反如果梯度的大小较小说明当前参数值已经比较接近最优值模型可能只需要小的步长来微调参数。模型的学习效率梯度的大小也可以反映模型的学习效率。较大的梯度通常表示模型在当前参数值下对训练数据的拟合不够好需要更大的调整来提高模型的性能。较小的梯度则表示模型已经在当前参数值下取得了较好的拟合效果。参数更新的方向梯度的方向是损失函数下降最快的方向梯度的大小则表示在该方向上的下降速度。通过梯度的大小可以确定参数更新的方向以便更快地朝着损失函数的最小值移动。总的来说梯度项的大小是评估模型在当前参数值下的优化情况的重要指标可以指导参数更新的步长和方向帮助模型更快地收敛到最优解。接下来我们考虑最后一个也是最令人困惑的情况:c) zp≈zq。我们将其分为两个子案例 c1) zp和zq都很大例如大约在10左右(正如我们在MS COCO“5蹄”实验中观察到的那样)。我们可以发现SCE 损失梯度的大小||③||和||④||都接近于 0.5而 ||①|| ≈ 0 和 ||②|| ≈ 0.5。c2) 中zp 和 zq 很小例如约为 -10。||③||和||④|| 保持不变为 0.5但 ||①||≈ 0.5 和 ||②|| ≈ 0。我们可以发现在这两种混淆的情况下SCE 损失产生的梯度既鼓励了对正类别的预测也对负类别的预测进行了惩罚。原因是 softmax 函数中分母中的指数项明确涉及了两个类别。基于此SCE 保证了类别排除学习——当遇到混淆时同时提高正类别并抑制负类别。相比之下在 BCE 中每种情况都集中于正类别或负类别。它不保证在惩罚负类别时不减少正类别或在鼓励正类别时不提升负类别特别是对于混淆类别而言这种学习效率低下。 Empirically. 有人可能会认为梯度的较大幅度可能不会直接导致更强的优化因为常见的优化器例如 Adam [18]使用自适应学习率。为了证明 SCE 在实践中的有效性我们在运行真实模型时监控梯度。具体而言我们回顾了“5 蹄类动物”玩具实验其中模型使用 Adam 优化器进行训练。我们计算了两种独立模型产生的 BCE 和 SCE 损失相对于每个预测 logit 的梯度。如图 4 所示我们分别显示了与目标类别即唯一的正类别 p和混淆类别即具有最高 logit 值的负类别 q的 logit 相关的梯度。我们可以看到对于正类别和负类别SCE 损失的梯度变化更为迅速表明其模型学习更为积极和高效。图4 相对于目标类(即唯一的正类p)和混淆类(即logit值最高的负类q)的logit的梯度。BCE和SCE模型都使用MS COCO训练集中的5个有蹄动物类进行训练。这些梯度是在val集合上计算的。在训练过程中模型通过训练集学习参数并通过验证集评估模型的性能和泛化能力。验证集的作用是用来调整模型的超参数、监控模型的训练过程以及评估模型在未见过的数据上的表现。 5. Experiments 5.1. Datasets and Settings Datasets PASCAL VOC 2012[9]和MS COCO 2014[30] VOC包含20个前景对象类和1个背景类。在训练集、val集和测试集中分别有1464、1449、1456个样本根据相关研究 [1,23,45]我们使用了由 Hariharen 等人提供的包含 10,582 张训练图像的扩充训练集。MS COCO 数据集包含 80 个目标类别和 1 个背景类别。其训练集和验证集分别包含 80,000 张和 40,000 张样本。在这两个数据集上我们仅在训练期间使用它们的图像级标签——这是 WSSS 中最具挑战性的设置。 Evaluation Metrics. Mask Generation. 我们为训练集中的图像生成伪掩码并使用它们对应的真值掩码来计算mIoU。 Semantic Segmentation.我们训练分割模型用它来预测val或测试集中图像的掩模并根据它们的地面真值掩模计算mIoU。我们还在补充中提供了F1和像素精度的结果。 F1分数F1 score是一个综合考虑了模型的精确度Precision和召回率Recall的指标。F1分数是精确度和召回率的调和平均值可以用以下公式表示 F12×PrecisionRecallPrecision×Recall 其中精确度表示模型预测为正类别的样本中有多少是真正的正类别召回率表示真正的正类别中有多少被模型成功预测为正类别。F1分数综合考虑了精确度和召回率是一个常用的评估分类模型性能的指标。像素精度Pixel Accuracy是用于评估图像分割模型性能的指标。在图像分割任务中模型需要将每个像素分配给正确的类别。像素精度是指模型在所有像素中正确分类的像素数量占总像素数量的比例。像素精度是一个直观的评估指标用于衡量模型在像素级别上的准确性。 Network Architectures. 对于掩码生成我们按照[1,23,45]使用ResNet-50作为主干其生成的特征图大小为32 × 32 × 2048。对于语义分割我们使用了ResNet-101(继[1,23,45])和Swin Transformer[31](首次在WSSS中使用)。两者都在ImageNet上进行了预训练[8]。我们将ResNet-101纳入DeepLabV2[5]和DeepLabV3[6]中由于篇幅限制后者的结果在附录中。我们将Swin并入了UperNet[41]。 Implementation Details. 对于掩码生成我们使用与[1]中相同的设置来训练FC Layer-1。我们通过以下方式训练FC layer-2:分别在VOC和MS COCO上设置λ为1和0:1;在两个数据集上运行4个epoch初始学习率为5e−4多项式学习率衰减。我们遵循IRN[1]来应用相同的数据增强和权重衰减策略。Eq.(10)和Eq.(11)中的所有超参数均遵循AdvCAM[23]和IRN[1]的原始论文。对于语义分割步骤中的DeepLabV2我们使用与[1,21,23]相同的训练设置。详情请参阅附件。对于UperNet首先将输入图像均匀地调整为2;048 ×512比例范围从0:5到2:0然后随机裁剪为512×512然后输入模型。数据增强包括水平翻转和颜色抖动。我们在VOC和MS COCO数据集上分别训练了40k和80k次迭代的模型批次大小为16。我们采用AdamW[32]求解器初始学习率为6e−5权重衰减为0.01。根据多项式衰减计划学习率以1.0的幂次衰减。 5.2. Results and Analyses SCE on FC Layer-1 (FC1) or Layer-2 (FC2).有人可能会争辩说SCE没有必要应用于额外的分类器FC2。我们在FC1(即w/o FC2)上进行了SCE的实验结果显示在表1的上半部分。 “Lbce only”是将仅使用二元交叉熵BCE损失函数作为FC1层的基准线。这意味着模型在训练过程中只使用BCE损失函数来优化FC1层的参数。 “Lsce only”是将仅使用Soft Cross EntropySCE损失函数作为FC1层的训练方式。在这种设置下原始的多热编码标签被修改为归一化的形式使得每个标签的总和为1。这种设置的目的是尝试使用SCE损失函数来训练模型以比较其在模型性能上的影响。 “Lsce for single only”是将在多标签图像上应用BCE损失函数在单标签图像即包含一个对象类别的子集上应用SCE损失函数。这种设置的目的是尝试结合两种损失函数来处理不同类型的图像以探索是否可以提高模型的性能。 “Lsce only”表现最差的原因是因为SCE损失函数在多标签分类任务中并不适用因为不同类别的概率并不是独立的。而“Lsce for single only”结合了两种损失函数来处理不同类型的图像增加了方法的复杂性并且在实践中并没有取得太大的收益特别是在MS COCO数据集中其中单标签图像数量较少是一个更一般的分割场景。因此根据实验结果选择合适的损失函数对于模型的性能和训练效果至关重要。表1 上面的块显示了训练具有不同损失函数的传统多标签分类模型的mIoU结果(%):BCE, SCE及其混合(单标签图像的SCE和多标签图像的BCE)。下面的块显示了使用不同权重提取ReCAM的结果:FC Layer-1或FC Layer-2或它们的混合变体(元素加法或乘法)的权重。“rp。表示我们用来报告最终结果的选项(包括掩码细化和语义分割)。请注意使用其他选项的结果(例如用于VOC的w’)在补充中。 Using the Weights of FC1 and FC2 in Eq.(9). 由于我们有两个FC层我们的w实现有几个选择1) w, 2) w, 3)w⊕w或4)w⊗w其中⊕和⊗分别是元素的加法和乘法。我们在表1的下块中显示了结果。我们可以看到所有选项的结果都比基线要好(即“仅限Lbce”没有FC2)。具有w⊗w的ReCAM在VOC上的性能最好。原因是元素乘法增强了代表性的特征映射抑制了混淆的特征映射。有趣的是在MS COCO上加入w的ream比w⊗w的性能更好。这可能是因为输入到FC2的特征fk(x)在这个困难的数据集中很差而FC2没有得到很好的训练。基于这些结果我们用w⊗w来进行所有关于VOC的实验用w来进行MS COCO的实验。 ReCAM的局限性在于它的FC2可能会过度拟合不良骨干提取的噪声特征。我们希望在未来通过利用强大的预训练方法来升级骨干来解决这个问题值得强调的是如果将第二个数据块中的任何一行与表1中的第一行进行比较ReCAM 的有效性在两个数据集上都得到了验证——使用 ReCAM 的任何选项都比基线生成了更好的掩码。 Effects of Different λ Values. 方程8中的 λ 控制了 BCE 和 SCE 之间的平衡。我们通过在 VOC 上变换 λ 的值来研究 ReCAM 的伪掩码质量mIoU如图 6 (a) 所示。我们可以观察到λ 的最佳值是 1但在使用其他值时差异不明显即 ReCAM 对 λ 不敏感。图6 (a) ReCAM对Eq.(8)中λ值对VOC的敏感性。(b)将表2前两行的mIoU结果分解为单标签图像(“Single”)和多标签图像(“Multi”)的结果。表2在VOC和MS COCO数据集上比较ReCAM与基线的伪掩码mIoU(%)和消耗时间。“时间”是指从训练模型(使用ImageNet预训练主干)到生成所有训练图像的0-1掩模的总计算时间。VOC的单位时间(ut)为0.7小时[9]MS COCO的单位时间为5.4小时[30]。*表示结果来自我们的重新实现(原始论文中没有MS COCO结果)。下划线突出我们最好的结果。 Generality of ReCAM.我们将 ReCAM 作为种子通过以下方式评估其通用性1将其与vanilla CAM 进行比较——这是最常用的种子生成方法2在其之后应用不同的改进方法。从表 2 和表 3 的结果中我们可以发现 ReCAM 在 VOC 和 MS COCO 上均显示出与 CAM 一致的优势。具体来说在表 2 的第一行中ReCAM 自身在 VOC 上的表现优于 CAM 6%。当使用 ReCAM 作为伪掩码来学习语义分割模型时这一差距几乎保持不变如表 3 的第一行所示。值得一提的是在更强大的分割模型 UperNet-Swin 上这一差距更大例如在 VOC 验证集上与使用 DeepLabV2 相比差距为 6.1% 和 4.7%。表3在两个基准上使用不同分割模型的WSSS的mIoU结果(%)。种子掩码由CAM或ReCAM生成掩码细化方法是行标题。我们在补充资料中提供了DeepLabV3的结果。对于改进ReCAM我们有两个观察结果:1)计算成本显着增加(表2)在使用ResNet-50上通过使用IRNImage Refinement Network和AdvCAMAdversarial CAM相比于基准的ReCAMReactivated CAM在性能上分别提高了大约4.5倍和160倍。这表明IRN和AdvCAM对于改进模型性能起到了显著的作用。2从表格3中可以看出在WSSSWeakly Supervised Semantic Segmentation任务中总是在使用IRN时获得了最佳性能。这可以通过表格中下划线标记的数字来观察到这些数字表示在不同条件下获得的最佳性能结果。图6 (b)显示ReCAM对单标签和多标签图像都能生成更好的掩码。当加入IRN时ReCAM的改进得以保持。图5显示了4个例子其中ReCAM减轻了我们在第1节中提到的两个缺陷:假阴性像素和假阳性像素。图5中最右边的块显示了一个失败的情况:CAM和ReCAM都无法捕获与周围遮挡或相似颜色的物体部分例如“狗”和“人手”之间。图5在VOC数据集上使用CAM和ReCAM生成的0-1掩码的可视化(在训练分割模型之前)。剩下的两个块(每个块有四列)分别表示第1节中介绍的两个缺陷:假阴性像素和假阳性像素。红色虚线框突出了ReCAM改进的区域。最后一个块显示了一个失败案例的示例。 ReCAM的优越性。我们也可以将ReCAM作为一种细化方法并与IRN、AdvCAM等相关方法进行比较。在表2中与AdvCAM(55:6%)相比ReCAM在VOC上达到了54:8%的类似结果但它比AdvCAM (1:9 ut vs . 316:3 ut)效率高160倍。此外通过级联IRN, ReCAM比AdvCAM高出1% (70:9% vs . 69:9%)。ReCAM效率更高(只有8:2)。此外从表4中我们可以看到ReCAM在不同的CAM变体中支持即插即用包括基于显著性的方法。表4在使用或不使用显著性检测模型时使用DeepLabV2对VOC的mIoU结果(%)。在左边如果他们在论文中报告了这种组合则方法是IRN(默认)。在右侧我们分别将ReCAM插入EPS* (-E*)和EDAM* (-M*)中或者等效地将它们的显著性编码模块分别添加到我们的框架中其中*表示DeepLabV2在MS COCO上进行预训练。显著性检测是计算机视觉领域的一个重要任务旨在识别图像中最引人注目的区域或目标。显著性检测模型可以帮助模型更好地理解图像内容从而在语义分割任务中提高性能。 EPS和EDAM是两种显著性检测模型或方法。在这里EPS和EDAM表示将这些显著性检测模型整合到DeepLabV2框架中的变种。通过将ReCAM整合到EPS和EDAM中可以进一步提高语义分割模型的性能。 6. Conclusions 我们从传统CAM的两个常见缺陷开始。指出问题的关键在于BCE损耗的广泛应用并从理论上和经验上论证了SCE损耗的优越性。我们提出了一种简单而有效的方法——ReCAM通过将SCE插入到基于bce的模型中来重新激活模型。我们通过在两个流行的WSSS基准上进行广泛的实验和各种案例研究展示了它的通用性和优越性。

查看全文

http://www.zqtcl.cn/news/756575/