网站未做安全隐患检测怎么拿shell,网页设计框架怎么写,公司的英文网站,办公系统摘要 基于Faster RCNN#xff0c;做出如下改变#xff1a;
添加了用于预测每个感兴趣区域(RoI)上的分割掩码分支#xff0c;与用于分类和边界框回归的分支并行。mask分支是一个应用于每个RoI的FCN#xff0c;以像素到像素的方式预测分割掩码#xff0c;只增加了很小的计…摘要 基于Faster RCNN做出如下改变
添加了用于预测每个感兴趣区域(RoI)上的分割掩码分支与用于分类和边界框回归的分支并行。mask分支是一个应用于每个RoI的FCN以像素到像素的方式预测分割掩码只增加了很小的计算开销实现了实时分割Faster R-CNN不是为网络输入和输出之间的像素到像素对齐而设计的。在RoIPool为特征提取执行粗空间量化过程中出现特征错位会四舍五入强迫RoI对齐图像特征这会对后续分支产生计算误差。为解决RoIPool带来的错位提出一种简单的、无量化的层RoIAlign精确保留了特征的空间位置
框架
Faster R-CNN Faster R-CNN由两个阶段组成。第一阶段称为区域建议网络(RPN)提出候选目标边界框。 第二阶段为Fast R-CNN使用RoIPool从每个候选框中提取特征并执行分类和边界框回归。 两个阶段使用的特征可以共享以更快地进行推理。
Mask R-CNN Mask R-CNN采用与Faster R-CNN相同的两阶段过程第一阶段(RPN)相同。在第二阶段与边界框分类和回归并行Mask R-CNN为每个RoI输出二值掩码具体为对每个RoI使用全卷积网络FCN预测 m × m m× m m×m掩码图。 在训练期间损失定义为 L L c l s L b o x L m a s k L L_{cls} L_{box} L_{mask} LLclsLboxLmask。其中分类损失 L c l s L_{cls} Lcls和边界框损失 L b o x L_{box} Lbox与Faster R-CNN定义相同。mask分支为每个RoI提供了 K m 2 Km^2 Km2维的输出编码了分辨率为 m × m m × m m×m的 K K K个二值掩码图 K K K为分类类别数。对掩码图逐像素应用sigmoid则 L m a s k L_{mask} Lmask定义为与ground-truth类 k k k相关联的RoI掩码图的平均二值交叉熵损失其他掩码输出对损失没有贡献。
RoI align Mask分支采用的像素到像素的方法要求RoI特征图像特征建议框必须良好对齐以精准地保持每个像素的明确空间对应关系。 RoIPool上图用于从每个RoI中提取一个小的特征映射例 2 × 2 2× 2 2×2。首先将浮点RoI映射到输入特征再将RoI四舍五入细分为具有整数长度的 2 × 2 2× 2 2×2个空间box最后将每个box覆盖的特征值聚合得到特征映射通常通过最大池化。这种特征映射方法对大的特征区域是鲁棒的但对预测像素精确的掩码有很大的负面影响。 为解决上述问题提出RoIAlign层以消除 RoIPool的特征错位。如上图首先将RoI细分为 2 × 2 2× 2 2×2个相同大小的空间box对每个box使用双线性插值来计算每个RoI bin采样位置的输入特征的精确值并聚合结果(使用最大值或平均值)。注意到结果对精确的采样位置或采样多少点不敏感。
网络架构 网络可分为
用于在整个图像上进行特征提取的卷积主干网络用于边界框识别(分类和回归)和掩码预测的网络头分别应用于每个RoI 如上图本文评估了深度为50或101层的ResNet和ResNeXt网络左及FPN网络右作为主干网络FCN作网络头的Mask RCNN。
实验
训练配置 同Fast RCNN如果一个RoI与ground-truth box的IoU为0.5则认为它是正的否则是负的。 L m a s k L_{mask} Lmask仅在正RoI上定义mask目标是RoI对应的真实mask二值图。 采用了以图像为中心的训练。图像的大小调整为800像素。每个GPU的mini batch有2个图像每个图像采样N个建议区域正负比为1:3。N对于C4骨干是64对于FPN是512。在8个gpu上训练(mini batch为16)进行160k迭代学习率为0.02在120k迭代时降低了10。使用0.0001的权重衰减和0.9的动量。使用ResNeXt时每个GPU下训练1张图像初始学习率为0.01。 RPN anchor采用5种尺度和3种长宽比。为了方便消融RPN是单独训练的除非指定否则不与Mask R-CNN共享特征。RPN和Mask R-CNN具有相同的主干。
推理配置 在测试时使用C4骨干或FPN骨干得到建议框。在这些建议框上运行bbox预测分支首先根据置信度进行非极大值抑制然后将mask分支应用于得分最高的100个检测框。mask分支可以预测每个RoI的K个掩码但只使用 k − t h k -th k−th掩码其中 k k k是classification分支预测的类别。然后将 m × m m×m m×m的浮点数掩码输出调整为RoI大小并以0.5的阈值进行二值化得到mask图。
对比实验 上图为Mask R-CNN在COCO测试集上的结果。这些结果基于ResNet-101实现了35.7的mask AP。显示了mask、bbox、类别和置信度。 上图在COCO数据集上在使用同样的骨干网络下将Mask R-CNN与最先进的实例分割方法进行比较。该模型的所有实例分割都优于之前最先进的模型如MNC、FCIS、FCIS。 上图可视化比较了Mask R-CNN和FCISFCIS在重叠实例上出现了伪影Mask R-CNN没有这样的问题。 上图将Mask R-CNN与最先进的COCO 目标检测算法进行比较。实验训练了完整的Mask R-CNN模型在推理时只使用分类和框输出(忽略掩码输出)。观察到使用ResNet-101-FPN的Mask R-CNN优于之前所有最先进的模型的基本变体。使用ResNeXt-101-FPNMask R-CNN进一步提高了结果比使用Inception-ResNet-v2-TDM模型高出3.0点AP。 作为进一步的比较训练了一个没有Mask分支的Mask R-CNN在上图中用“Faster R-CNN,RoIAlign”表示。由于RoIAlign的存在该模型比行二算法具有更好的性能。另一方面比Mask RCNN低0.9分box AP。因此可知Mask R-CNN在box检测上的这种差距受益于多任务训练。 最后注意到Mask R-CNN在其掩码和box AP之间存在一个小差距37.1(mask)和39.8(box)之间的2.7点。这表明所提出方法在很大程度上缩小了目标检测和实例分割任务之间的差距。
消融实验 上图为一系列消融实验结果。表a显示了各种骨干的Mask R-CNN。在更深层的网络50 vs. 101和先进的设计FPN和ResNeXt下模型都有不同程度的改进。 表b为多项式方法和独立掩码预测方法的比较。Mask R-CNN将mask和类预测解耦因为box分支可以独立预测类标签故mask分支可以为每个类生成一个掩码从而使类之间没有竞争(通过每个像素 的sigmoid和二值损失)。将其与使用逐像素softmax和多项式loss在FCN中常用的预测方法进行比较这种方案将掩码任务和类别预测任务耦合在一起相比于解耦方案这导致掩码5.5AP的损失。一旦实例被分类为一个整体(通过box分支)就无需关注类别这使掩码模型更容易训练。 表c本实验中使用步长为16的ResNet-50-C4主干网络对比RoIAlign和RoIPool。观察到RoIAlign比RoIPool提高了AP约3个点。且观察到RoIAlign对max/average pool不敏感。 此外还与RoIWarp进行了比较RoIWarp同样会使得输入失去对齐观察到RoIWarp的表现与RoIPool相当但比RoIAlign差得多。验证了正确的对齐是关键。 表d用步长为32的ResNet-50-C5骨干评估RoIAlign。观察到RoIAlign使掩膜AP提高了7.3点掩膜AP75提高了10.5点。还注意到在RoIAlign中使用stride-32 C5特征(30.9 AP)比使用stride-16 C4特征(30.3 AP表1c)更准确。RoIAlign在很大程度上解决了长期以来使用大步长特征进行检测和分割的挑战。 表e中使用ResNet-50-FPN骨干网络比较MLP和FCNs。使用FCNs可以在MLPs上获得2.1掩膜AP增益。
关键点检测 上图可视化显示联合学习所有三个任务box、mask、keypoint可以使一个统一的系统同时有效地预测所有输出。 上图实验评估了人体关键点AP并在ResNet-50-FPN骨干上进行了实验。上图显示本文的结果(62.7 APkp)比使用多阶段处理管道的COCO 2016关键点检测冠军CMU-pose高0.9分。 上图显示将mask分支添加到仅支持box的版本Faster RCNN或仅支持keypoint的版本中可以不断改进这些任务。然而添加关键点分支略微减少了box/mask AP这表明尽管关键点检测从多任务训练中受益但它并没有反过来帮助其他任务。 上图研究了RoIAlign对关键点检测的影响。尽管ResNet-50-FPN骨干具有很细的步长但因为关键点检测对定位精度更敏感所以RoIAlign仍然比RoIPool显示出显著的改进并将APkp提高了4.4个点。这再次表明对齐对于像素级定位(包括掩码和关键点)至关重要。
reference
Kaiming, H. , Georgia, G. , Piotr, D. , Ross, G. . (2018). Mask R-CNN.