excel可以做网站吗,wordpress移动端 菜单,网站变exe文件怎么做,dede 网站地图怎么做文章目录 前言一、YOLOv2的网络结构和流程二、YOLOv2的创新点预处理网络结构训练 总结 前言
根据前文目标检测-One Stage-YOLOv1可以看出YOLOv1的主要缺点是#xff1a;
和Fast-CNN相比#xff0c;速度快#xff0c;但精度下降。#xff08;边框回归不加限制#xff09;… 文章目录 前言一、YOLOv2的网络结构和流程二、YOLOv2的创新点预处理网络结构训练 总结 前言
根据前文目标检测-One Stage-YOLOv1可以看出YOLOv1的主要缺点是
和Fast-CNN相比速度快但精度下降。边框回归不加限制
YOLOv2提出了一些改进策略如anchor-based等 提示以下是本篇文章正文内容下面内容可供参考
一、YOLOv2的网络结构和流程
将影像输入卷积网络DarkNet-19残差连接得到13 × 13特征图引入anchor机制与SSD不同的是每个特征点对应5个anchor且anchor的大小是由VOC 和 COCO数据集聚类得到的 ps由于变为anchor-based算法预测框由YOLOv1的98个变为84513 × 13 × 5个mAP由69.5略微降到69.2召回率却由81大大提升至88 将上一步得到的anchor输入分类和边框回归器使用非极大值抑制NMS去除冗余窗口 下图可以比较清晰的看出YOLOv2的主要结构 其中DarkNet-19的结构如下 更详细的参数如下 ps上图中可以看出残差连接时要保证两个特征图wh的一致从通道上进行拼接这里通过PassThrough层将之前层的特征图进行了wh的缩放以和更深层特征图保持一致PassThrough层的基本原理如下图 之所以不用池化下采样是想通过PassThrough保留featureMap的更多细节 二、YOLOv2的创新点
预处理
使用了标准的数据增强方法随机裁剪、旋转random crops, rotations色调、饱和度hue, saturation曝光偏移exposure shifts
网络结构
backbone改为Darknet-19Darknet-19 的性能基本与 Resnet34 差不多使得网络更轻量更快引入了BNBatch normalization其优点如下 加快收敛改善梯度远离饱和区允许大的学习率对初始化不敏感相当于正则化使得有BN层的输入都有相近的分布有了BN之后就可以不用dropout了或者说不能像原来一样用dropout了这会导致训练和测试的方差偏移。 加入了anchor机制细粒度特征Fine-Grained Features将最后一个最大池化层前的特征图经过Pass Through与后面的卷积特征图进行合并Pass Through就是四分后再concat
训练
高分辨率的预训练采用了448的输入进行微调以便网络更好地处理更高分辨率的输入多尺度训练Yolov2每10个batches就会随机换一下输入的尺度{320, 352, …, 608}使得模型泛化于不同尺度的输入这得益于adaptive pooling层。高分辨率的输入速度慢但是对小目标的检测效果要好很多低分辨率的输入速度快loss略微改动真阳样本的定位误差、confidence误差、分类误差、预测框和anchor定位误差、负样本置信度误差且5个子loss均有一个权重超参数预测输入从448变为416目的是让得到的feature map的size是一个奇数。这样的好处是许多图片的中心点都是某个物体的中心奇数保证中间是一个格子而不是偶数那样四个格子抢占中心点尝试了一种分类和检测的联合训练策略类别数据集用于分类训练检测数据集用于边框回归和分类同时为了统一COCO数据集和ImageNet数据集类别提出了一种层级分类方法 总结
通过网络结构和改进和一些tricksYOLOv2精度大大提升同时通过多尺度训练使得相同的YOLOv2模型可以在不同的大小下运行从而轻松实现速度和精度之间的折衷。
在67 FPS的速度下YOLOv2在VOC 2007上达到76.8mAP。在40 FPS的速度下YOLOv2在VOC 2007上达到78.6mAP性能优于当时的SOTA如SSD和Faster RCNN ResNet同时运行速度更快。