当前位置: 首页 > news >正文

东莞谢岗网站建设shopee怎么注册开店

东莞谢岗网站建设,shopee怎么注册开店,百度快照推广排名,唐山网站推广0.摘要 目前#xff0c;使用图像级别标签而不是昂贵的像素级掩码进行弱监督实例分割的研究还未得到充分探索。本文通过利用类别峰值响应来实现一个分类网络#xff0c;用于提取实例掩码#xff0c;来解决这个具有挑战性的问题。只通过图像标签的监督下#xff0c;完全卷积的…0.摘要 目前使用图像级别标签而不是昂贵的像素级掩码进行弱监督实例分割的研究还未得到充分探索。本文通过利用类别峰值响应来实现一个分类网络用于提取实例掩码来解决这个具有挑战性的问题。只通过图像标签的监督下完全卷积的CNN分类器可以生成类别响应图该图指定每个图像位置的分类置信度。我们观察到类别响应图中的局部最大值即峰值通常对应于实例内部的强视觉线索。受此启发我们首先设计了一个过程以从类别响应图中引出峰值。然后这些峰值被反向传播并有效地映射到每个目标实例的高信息区域例如实例边界。我们将从类别峰值响应生成的上述地图称为峰值响应图PRMs。PRMs提供了细致的实例级表示即使使用一些现成的方法也可以提取实例掩码。据我们所知我们首次报告了挑战性的图像级别监督实例分割任务的结果。广泛的实验证明我们的方法不仅提升了弱监督点位定位和语义分割性能而且在广泛使用的基准测试集包括PASCAL VOC 2012和MS COCO上报告了最先进的结果。 1.引言 大多数当代语义分割方法依赖于大规模的密集注释来训练深度模型然而标注像素级掩码是昂贵且劳动密集的[18]。相反图像级别的注释即图像中是否存在特定物体类别更便宜且更容易定义。这促使了弱监督语义分割方法的发展这些方法使用图像标签来学习卷积神经网络CNN进行类别感知的分割。 大多数现有的弱监督语义分割方法将CNN中的卷积滤波器视为物体检测器并聚合深度特征图来提取类别感知的视觉证据[47,43]。通常预训练的分类网络首先被转换为全卷积网络FCN以在单次前向传递中生成类别响应图。这样的类别响应图指示网络用于识别图像类别的关键图像区域但不能区分同一类别中的不同对象实例。因此现有的弱监督语义分割方法不能简单地推广到实例级别的语义分割[16,12]该方法旨在检测图像中的所有对象并为每个实例预测精确的掩码。 在本文中我们探索了使用图像级别弱监督训练卷积神经网络CNN进行实例级别语义分割简称实例分割的挑战性问题。具体而言我们提出利用类别响应图中的峰值来实现一个分类网络例如VGGNet、ResNet以进行实例掩码的提取。 类别响应图中的局部最大值即峰值通常对应于实例内部的强视觉线索如图1所示。受到这种观察的启发我们首先设计了一个过程在训练阶段刺激峰值从类别响应图中出现。在推理阶段这些出现的峰值被反向传播并有效地映射到每个对象实例的高信息区域例如实例边界。从类别峰值响应生成的上述地图被称为峰值响应图PRMs。如图1所示PRMs作为实例级别的表示指定了每个对象的空间布局和细节边界因此即使使用一些现成的方法[3,38,27]也可以提取实例掩码。 与许多通常使用复杂框架如条件随机场CRF[46,45]、循环神经网络RNN[30,32]或模板匹配[37]来处理实例提取的完全监督方法相比我们的方法简单而有效。它与任何现代网络架构兼容并且可以使用标准的分类设置进行训练例如图像类别标签和交叉熵损失计算开销可以忽略不计。由于训练效率高我们的方法非常适用于大规模数据的应用。 总结一下本文的主要贡献如下 我们观察到类别响应图中的峰值通常对应于各个实例内部的强视觉线索这一简单的观察引导了一种有效的弱监督实例分割技术。我们提出利用类别峰值响应来使分类网络能够进行实例掩码提取。我们首先刺激峰值从类别响应图中出现然后将其反向传播到每个对象实例的高信息区域如实例边界。我们在流行的CNN模型中实现了所提出的方法如VGG16和ResNet50并在多个基准测试中展示出顶级性能。据我们所知我们首次报道了挑战性的图像级监督实例分割任务的结果。 图1类别峰值响应对应于各个实例内部的强视觉线索。这些峰值可以反向传播并有效地映射到每个对象的高信息区域从而可以提取实例掩码。最佳观看方式为彩色显示。 2.相关工作 弱监督语义分割。语义分割方法通常在训练阶段需要密集标注。鉴于像素级标注的低效性先前的研究探索了各种替代的弱标注方法例如实例上的点[1]、物体边界框[5,22]、涂鸦[17,42]和人工选择的前景[34]。尽管这些方法是有效的但它们需要比图像级监督方法[24,25,41,14,33]更多的人力投入。一些工作以无监督的方式利用物体线索。例如图形模型被用于推断段的标签[44,15]但其物体定位能力仍然有限。因此使用外部定位网络来初始化对象位置[26,14,23]并使用预生成的对象分割提议先验来改进低分辨率的CNN平面。先前的工作通常涉及耗时的训练策略例如重复的模型学习[40]或在线提议选择[29,39]。相比之下在本文中我们使用标准分类网络来生成具有卷积响应的类别感知和实例感知的视觉线索。 实例分割。与寻求生成类别感知掩码的语义分割相比实例分割需要同时生成实例感知的区域标签和细节化的分割掩码因此更具挑战性。即使有来自准确的像素级注释的监督许多实例分割方法仍会使用来自精确物体边界框的额外约束。FCIS方法[16]结合了分割提议模块[6]和物体检测系统[7]。Mask R-CNN [12]充分利用了由提议网络[31]生成的精确物体边界框来辅助对象掩码的预测。在像素级GT掩码的强监督下上述方法大大提升了实例分割的性能。然而如何在弱监督下进行实例分割仍然是一个待解决的问题。Khoreva等人[13]提出利用边界框监督来获得伪造的真实掩码以减轻标注成本。相反我们利用在分类网络中自然学习的实例感知视觉线索因此训练只需要图像级注释。 对象先验信息。当准确的注释不可用时视觉识别方法通常利用先验信息获得额外的视觉线索。在弱监督的对象检测和分割中常常使用推测对象位置和范围的对象提议方法来提供对象先验。选择性搜索[38]和边界框[49]使用低级特征如颜色和边缘作为线索生成对象候选窗口。多尺度组合分组MCG[27]使用低级轮廓信息例如结构化边缘[8]或超度量轮廓地图[20]来提取包含细节化对象边界的对象提议这对于实例分割是有价值的。在本文中我们利用MCG提议的对象先验来进行实例掩码提取。 图像级监督的深度激活。只使用图像级监督需要将CNN的深度响应即特征图聚合成全局的类别置信度以便可以使用图像标签进行训练。全局最大池化GMP[21]选择每个类别最具辨别力的响应来生成分类置信度分数但会丢弃许多其他有信息量的区域。全局平均池化GAP[47]对所有响应赋予相等的重要性这使得很难区分前景和背景。对数求和指数LSE[35]提供了GMP和GAP的平滑组合以约束类别感知的对象区域。全局排名最大最小池化GRP[9]选择部分高分像素作为正例低分像素作为负例增强区分能力。 现有的方法通常在全局范围内激活深度响应而不考虑局部空间相关性这使得在图像中难以区分对象实例。卷积响应中的峰值暗示了学习滤波器与信息感受野之间的最大局部匹配。在我们的方法中峰值刺激过程聚合了局部最大值的响应增强了网络的定位能力。基于深度响应提出了自顶向下的注意力方法通过探索视觉注意力证据生成精细的类别显著性地图[4,43]。这些类别感知且与实例无关的线索可以用于语义分割[14,33]但对于实例分割来说还不足够如图2所示。相反我们的方法提供了适用于弱监督实例级问题的细节化实例感知线索。 图2与现有的弱监督方法旨在为每个类别获得显著性地图中间相比所提出的方法提取了每个实例的细节化表示右侧包括明确的布局和边界用不同颜色可视化。 图3峰值响应图PRMs的生成和利用。刺激过程有选择地激活每个对象内部的强视觉线索形成类别峰值响应。反向传播过程进一步从结果峰值中提取每个实例的细节。最后将类别感知线索、实例感知线索和来自提议的对象先验信息综合考虑以预测实例掩码。最佳查看方式为彩色图像。 3.方法 在本节中我们提出了一种利用类别峰值响应的图像级监督实例分割技术。完全卷积的CNN分类器可以生成类别响应图该图指定了每个图像位置的分类置信度[21]。基于我们的观察即类别响应图的局部最大值即峰值通常对应于实例内部的强视觉线索我们首先设计了一个过程在网络训练阶段激活峰值从类别响应图中出现。在推理阶段出现的峰值被反向传播生成突出显示每个对象信息区域的映射称为峰值响应图PRMs。PRMs为每个实例提供了精细的分离表示进一步利用这些表示从现成的对象分割提议中检索实例掩码如图3所示。 图4通过峰值刺激可以在类别响应图中间上更好地区分多个实例。通过激活最大化[10]可视化学习到的表示右侧。最佳查看方式为彩色图像。 3.1.全卷积架构 通过简单地移除全局池化层并将全连接层适应为1x1卷积层现代CNN分类器可以无缝地转换为完全卷积网络FCNs[19]在整个前向过程中自然地保留空间信息。转换后的网络通过单次前向传递输出类别响应图因此适用于空间预测。在这项工作中网络首先被转换为FCN。 3.2.峰值激发 为了激活类别响应图中的峰值我们构建了一个峰值刺激层将其插入在顶层之后如图3所示。考虑一个标准的网络令M ∈RC×H×W表示顶层卷积层的类别响应图其中C是类别的数量H×W表示响应图的空间尺寸。因此峰值刺激层的输入是M输出是类别-wise的置信度得分s ∈RC。第c个响应图Mc的峰值被定义为窗口大小为r 2内的局部最大值峰值的位置被表示为Pc {(i1,j1),(i2,j2),...,(iNc,jNc)}其中Nc是第c个类别的有效峰值的数量。在前向传递过程中为计算第c个对象类别的分类置信度得分生成采样核Gc ∈RH×W。可以通过Gc x,y访问位于位置(x,y)的核的元素。不失一般性核可以形成为 其中 0 ≤ x H, 0 ≤ y W(ik, jk) 是第 k 个峰值的坐标f 是一个采样函数。在我们的设置中f 是一个狄拉克δ函数用于仅从峰值聚合特征因此第 c 个类别的置信度得分 sc 可以通过类别响应图 Mc 和采样核 Gc 之间的卷积来计算如下所示 公式2可以看出网络仅使用峰值来做出最终决策自然地在反向传播过程中梯度通过Gc分配给所有峰值位置如下所示 其中δc是顶层卷积层第c个通道的梯度L是分类损失。从模型学习的角度来看类别响应图是通过对所有感受野RFs进行密集采样来计算的在其中大多数感受野是不包含有效实例的负样本。公式3表明与传统网络不加条件地从极端的前景-背景不平衡集中学习不同峰值刺激强制学习集中在经过类别峰值响应估计的一组稀疏的信息丰富的感受野潜在的正样本和难负样本因此在训练过程中防止大量的简单负样本压倒学习到的表示如图4右侧所示。 3.3.峰值反向传播 我们提出了一种概率反向传播过程用于进一步生成细节丰富且具有实例感知性的表示即峰值响应图。与先前的自上而下的注意力模型[43,36]不同这些模型寻找与输出类别最相关的神经元来生成类别感知的注意力图我们的公式明确考虑了感受野并可以从特定的空间位置提取实例感知的视觉线索即类别峰值响应。峰值反向传播可以解释为一个从峰值顶层开始并随机向底层行走的过程。然后底层中每个位置的自上而下的相关性被形式化为该位置被行者访问的概率。考虑一个具有单个滤波器W ∈ RkH×kW的卷积层为了简化数学将输入和输出特征图分别表示为U和V其中每个空间位置可以通过Uij和Vpq进行访问。通过Vpq和两个特征图之间的转移概率可以获得Uij的访问概率P(Uij)如下所示 Uˆij是U在位置(i,j)处的自下而上激活在前向传播中计算W ReLU(W)表示丢弃负连接Zpq是一个归一化因子用于确保 p,q P (Uij|Vpq)1。需要注意的是在大多数采用ReLU作为传递函数的现代CNN中负权重对增强输出响应没有积极影响因此被排除在传播之外。其他常用的中间层例如平均池化层和最大池化层被视为执行输入的仿射变换的相同类型的层[43]因此相应的反向传播可以以与卷积层相同的方式建模。通过由公式4和公式5定义的概率传播我们可以以自上而下的方式定位每个类别峰值响应的最相关空间位置生成细节丰富的实例感知的视觉线索称为峰值响应图如图5所示。 图5峰值反向传播过程将类别峰值响应映射到每个物体内部的细节丰富的视觉线索即峰值响应图PRM从而实现了实例级别的掩码提取。最好以彩色查看。 3.4.弱监督实例分割 我们进一步利用PRM的实例感知线索来执行具有挑战性的实例分割任务。具体而言我们提出了一种简单而有效的策略通过将来自PRM的实例感知线索、来自类别响应图的类别感知线索以及来自现成的物体提议的空间连续性先验相结合来预测每个物体实例的掩码。我们使用图3中的度量方法从提议库中检索实例分割掩码。 其中R是与类别峰值响应对应的PRMSˆ是通过形态梯度计算得到的提议S的轮廓掩码Q是通过类别响应图和偏置基于该图的均值获取的背景掩码。类独立的自由参数α和β在验证集上进行选择。在公式6中实例感知项鼓励提议与PRM最大化重叠边界感知项利用PRM中的细节边界信息选择具有类似形状的提议。此外类别感知项利用类别响应图抑制与类别无关的区域。这三个项的效果在4.3节中进行了消融研究。 弱监督实例分割的整体算法在算法1中说明。 4.实验 我们使用最先进的CNN架构包括VGG16和ResNet50对提出的方法进行了实现并在几个基准数据集上进行了评估。在第4.1节中我们对峰值刺激和反向传播过程进行了详细分析以展示所提出的技术能够生成准确的物体定位和高质量的实例感知线索。在第4.2节中我们展示了PRM在弱监督语义分割中通过分割提议的帮助下提取类别感知掩码的能力。在第4.3节中我们首次报道了具有挑战性的基于图像级监督的实例分割结果。我们还进行了消融研究和上限分析以展示我们方法的有效性和潜力。 4.1.峰值响应分析 我们使用点级定位度量[21]来评估类别峰值响应的定位能力和峰值刺激的有效性。我们首先通过双线性插值将类别响应图上采样到与图像大小相同的尺寸。对于每个预测的类别如果最大类别峰值响应的坐标落在相同类别的真实边界框内我们计为一个真正例true positive。 我们在PASCAL VOC 2012 [11]和MS COCO 2014 [18]的训练集上对带有/不带有峰值刺激的ResNet50进行微调并在验证集上报告了性能见表1。结果显示类别峰值响应对应于物体的视觉线索并可以用于定位物体。我们的完整方法在性能上表现出色超过了基线没有刺激很多这表明刺激过程可以使网络发现与有效实例相对应的更好的视觉线索。 峰值响应图的质量。为了评估提取的实例感知线索的质量我们测量了峰值响应图PRMR与GT掩码G之间的相关性即R与G之间的相关性这表明PRM发现了位于实例内部的视觉线索的能力。对于每个PRM我们定义其分数为与相同类别的GT掩码之间的最大相关性。因此分数为0表示相应的PRM没有定位到任何有效的物体区域而分数为1意味着PRM完美地区分了实例的视觉线索与背景。分数大于0.5的PRM被视为真正的正例。在VOC 2012上我们使用分类数据训练带有不同方法的响应聚合策略的ResNet50并根据分割数据集上的mAP评估生成的PRM的质量见表2。峰值刺激迫使网络从信息丰富的感受野中学习显式表示从而获得更高质量的PRM。 我们对PRM质量与图像拥挤程度之间的关系进行了统计分析见图6左侧。平均而言对于单个物体的图像落入实例的PRM能量达到78%对于2-5个物体的图像达到67%。令人惊讶的是即使是拥挤的场景中有超过六个物体实例的能量平均上也比背景更高这表明PRM提取的实例感知视觉线索质量很高。我们进一步分析了物体大小的影响见图6右侧结果显示PRM可以从常见大小的物体中定位到细致的证据。 表1在VOC2012和COCO2014验证集上的点级定位的平均精确度mAP%。 表2不同响应聚合策略对峰值响应图质量的影响的比较。 图6关于物体数量和大小对峰值响应图质量影响的统计分析。 表3基于VOC 2012验证集的弱监督语义分割结果以平均IoU表示。标记†表示引入可忽略的训练成本的方法。 4.2.弱监督语义分割 上述实验结果显示PRM对应准确的实例“种子”但另一个具有挑战性的任务是将每个种子扩展为完整的对象分割。我们评估了配备了峰值刺激的ResNet50模型在弱监督语义分割任务中的性能该任务要求将来自相同类别的对象分配为相同的分割标签。在VOC 2012分割数据的验证集上我们将相同类别的实例分割掩码合并以生成语义分割预测。性能以像素交并比平均值来衡量跨越201个类别20个对象类别和背景。 我们的方法不使用耗时的训练策略[33]或额外的监督[1,34]而是使用图像级标签和标准分类设置来训练模型并在弱监督语义分割任务中报告了具有竞争力的结果无需CRF后处理参见表3。图7展示了不同场景下的预测示例。 图7预测的语义分割示例。不同颜色表示不同的类别。 4.3.弱监督实例分割 使用提出的技术我们在PASCAL VOC 2012分割数据集上对ResNet50和VGG16模型进行实例分割这些模型是在分类数据集上训练的。据我们所知这是首次报告基于图像级监督的实例分割结果的工作。我们根据从地面真实值和弱监督定位方法[39,47,48]获取的对象边界框构建了几个基准线参见表4。使用定位的边界框我们设置了三种合理的掩模提取策略 1矩形简单地用实例标签填充对象框 2椭圆在每个框内拟合最大椭圆 3MCG检索与边界框具有最大交并比的MCG分割建议。 数值结果。实例分割评估使用IoU阈值0.25、0.5和0.75的mAP r进行并且还使用平均最佳重叠ABO[28]指标进行评估以便从不同的角度进行评估。表4显示我们的方法明显优于使用相同设置的弱监督定位技术即仅使用图像级标签进行模型训练。在较低的IoU阈值例如0.25和0.5下的性能改进显示了峰值刺激在对象定位中的有效性而在较高的IoU阈值例如0.75下的性能改进表明了峰值反向传播对捕捉细节实例线索的有效性。与最新的MELM [39]相比该方法通过多尺度增强、在线提案选择和特殊设计的损失进行训练我们的方法简单而有效并展示了竞争性能。 消融研究。为了研究峰值刺激以及我们的提案检索度量中每个项的贡献我们在不同的骨干网络上进行了基于不同因素省略的实例分割。结果如表5所示。从消融研究中我们可以得出以下结论 1峰值刺激过程在网络训练期间激发峰值对于我们方法的实例分割性能至关重要。 2当省略实例感知项时mAP0r.5从26.8%下降到13.3%这证明了我们方法生成的良好隔离的实例感知表示的有效性。 3边界感知项显著提高了2.5%的性能表明我们的方法确实提取了实例的细节边界信息。 4类别感知线索抑制了类别无关的区域从而显著提高了我们方法的实例分割性能。 定性结果。在图8中我们展示了一些实例分割的例子包括成功的案例和典型的失败案例。可以看出我们的方法可以产生高质量的视觉线索并在许多具有挑战性的场景中获得良好的实例分割结果。在第一列和第二列中当实例相互关闭或遮挡时它可以区分实例。第三列和第四列中的示例显示它在不同尺度的对象上表现良好。第五列中不同类别的对象被很好地分割这表明所提出的方法可以从分类网络中提取类别区分和实例感知的视觉线索。与弱监督系统典型的情况一样PRMs可能会被噪声共现模式误导并且有时难以区分对象部分和多个对象之间的区别。我们通过提案检索步骤来解决这个问题然而性能仍然受到提案质量的限制。 上限分析。为了探索我们方法的上限我们构建了不同的提案库如表6所示。首先我们将GT掩码与MCG提案混合在一起得到一个具有100%召回率的提案库结果显示我们方法基于图像级监督检索提案的能力与GT边界框26.9%对29.2%相当。接下来我们将GT掩码作为完美的提案库注意在高度遮挡的情况下GT边界框仍然失败来评估PRMs的实例定位能力。我们的结果进一步提升到73.3%并且大大优于SPN证明了所提出的技术在视频/RGB-D应用中的潜力可以利用丰富的信息生成高质量的提案。 表4以平均平均精度mAP和平均最佳重叠ABO为指标在PASCAL VOC 2012验证集上进行的弱监督实例分割结果。 表5基于不同网络骨干的PASCAL VOC2012验证集上的消融研究结果。 图8PASCAL VOC 2012验证集上的实例分割示例。可以看出峰值响应图第二行包含了细节丰富的实例感知信息可以用来生成实例级别的掩码第三行。最后一行展示了典型的失败案例。最好以彩色查看。 表6在PASCAL VOC 2012验证集上的实例分割结果mAP0r.75的比较。 5.总结 在本文中我们提出了一种简单而有效的技术可以使分类网络能够进行实例掩码提取。基于类别峰值响应峰值刺激对于增强目标定位非常有效而峰值反向传播则提取了每个实例的细节丰富的视觉线索。我们展示了点级定位以及弱监督语义分割的最佳结果并且据我们所知首次报告了图像级监督的实例分割结果。其基本事实是实例感知线索自然地被卷积滤波器学习并编码在分层响应图中。发现这些线索为弱监督实例级问题提供了新的见解。
http://www.zqtcl.cn/news/159676/

相关文章:

  • 有什么网站可以做简历网站备案表格
  • 网站开发用什么图片格式最好厦门人才网个人会员
  • 关于网站开发的文献深圳网络推广代运营
  • 网站做app的重要性做静态网站有什么用
  • 一键搭建网站系统教做衣服的网站有哪些
  • 城乡建设部网站施工员证书查询中铁建设集团有限公司招标平台
  • 广东省建设项目安全标准自评网站哪个网站可以免费做简历
  • 带产品展示的个人网站模板购物网站开发背景
  • 哪个域名注册网站好seo广告投放是什么意思
  • 网站建设ydwzjs电子邮箱怎么申请
  • 福建省建住房建设部网站wordpress 算数验证码
  • 东莞企业如何建网站网站正在建设中...为什么护卫神
  • 引流用的电影网站怎么做wordpress浏览速度
  • 微信小程序怎拼做搬家网站东莞建网站公司
  • 网站推广昔年下拉博客推广链接制作软件
  • php 小企业网站 cmswordpress导航分类
  • 婚恋网站女孩子都是做美容免费空间最大的网盘
  • 建立网站要钱吗找人做网站需求怎么写
  • 网站建设精品课程电商运营主要负责什么
  • 中职网站建设与维护考试题wordpress商店会员管理
  • 物流网站开发策划做提升自己的网站
  • 网站开发交接做网站首页尺寸大小
  • 临沂建网站公司一个工厂做网站有用吗
  • 网站建设代码编译的问题及解决方案天元建设集团有限公司第六分公司
  • 做亚马逊网站费用深圳好蜘蛛网站建设公司
  • 做网站需要办什么手续html简单网页代码实例
  • 中文网页设计模板免费下载超级优化小说
  • 做网站的流程前端做什么网站建设与管理专业学什么
  • 用wordpress做购物网站西安建设工程网站
  • 响应式网站免费模板下载电商怎么做如何从零开始视频