西安网站开发公司排名,西班牙语网站设计公司哪家好,一个网站如何产生流量,小程序源码购买文章目录 前言一、SPP Net 的网络结构和流程二、SPP的创新点总结 前言 SPP Net#xff1a;Spatial Pyramid Pooling Net#xff08;空间金字塔池化网络#xff09; SPP-Net是出自何凯明教授于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetw… 文章目录 前言一、SPP Net 的网络结构和流程二、SPP的创新点总结 前言 SPP NetSpatial Pyramid Pooling Net空间金字塔池化网络 SPP-Net是出自何凯明教授于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》 前文目标检测-Two Stage-RCNN中提到RCNN的主要缺点如下
2000候选框都需要进行CNN提特征SVM分类计算量很大所有候选框在输入CNN前都裁剪/缩放crop/warp成统一大小会造成变形失真等问题从而影响精度见下图 SPP Net 针对上述缺点做了改进 提示以下是本篇文章正文内容下面内容可供参考
一、SPP Net 的网络结构和流程
使用EdgeBoxes提取2,000个候选窗口candidate windows预训练CNN模型ZF 微调fine-tuning / 从头开始训练模型调整图像的大小使min(w,h)s并使用CNN网络从整个图像中提取特征图feature maps ps输入影像大小可以是任意的因此feature map的大小也是任意的 使用线性模型将候选窗口在原图的位置映射到卷积层特征图以获取每个候选窗口的特征图feature maps通过空间金字塔池化层Spatial Pyramid Pooling Layer将每个候选窗口feature map转化为固定大小 ps以下图举例来说SPP以3级空间金字塔4×4,2×2,1×1来提取特征就可以得到164121种不同的块(Spatial bins)对每个块进行池化操作最终得到固定大小为21×256的输出 实际使用了4级空间金字塔1×1, 2×2, 3×3, 6×6这会为每个候选窗口生成12800d256×50的表示 将经过SPP Layer层的得到的候选窗口的表示12800d输入全连接网络训练一个SVM分类器根据全连接网络输出特征进行分类利用非极大值抑制NMS去除冗余候选区训练一个回归模型精修正确的候选框位置及大小 二、SPP的创新点
相比于RCNN先提特征后卷积SPP Net先卷积后提特征因此只需要一次卷积相比于RCNN节省了大量计算时间使用SPP Layer固定输出大小改善了warp/crop这种预处理方法可能造成的图像失真从而导致识别精度下降的问题使用了多尺度训练224和180提高了精度 ps输入的大小可以是任意的使得网络可用于多尺度训练 总结
尽管相比于RCNNSPP Net提高了精度和速度但是仍然是分开训练多个模型模型训练难度大且繁杂。
尽管比RCNN快10-100倍但仍然很慢
SPP Net无法更新空间金字塔池化层以下的权重根本原因是当每个训练样本来自不同影像时通过SPP层的反向传播效率很低