当前位置：首页 > news >正文

北京计算机培训机构排名前十菏泽seo

news 2025/11/14 21:00:02

北京计算机培训机构排名前十,菏泽seo,哪个网站查企业信息免费,网页设计实训总结300字YOLO V2 YOLO V2是在YOLO的基础上#xff0c;融合了其他一些网络结构的特性#xff08;比如#xff1a;Faster R-CNN的Anchor,GooLeNet的$1\times1$卷积核等#xff09;#xff0c;进行的升级。其目的是弥补YOLO的两个缺陷#xff1a; YOLO中的大量的定位错误和基于区域…YOLO V2 YOLO V2是在YOLO的基础上融合了其他一些网络结构的特性比如Faster R-CNN的Anchor,GooLeNet的$1\times1$卷积核等进行的升级。其目的是弥补YOLO的两个缺陷 YOLO中的大量的定位错误和基于区域推荐的目标检测算法相比YOLO的召回率Recall较低。YOLO V2的目标是在保持YOLO分类精度的同时提高目标定位的精度以及召回率。其论文地址YOLO 9000:BetterFasterStronger。 YOLO论文的名称总是如此的直抒胸臆 Better 指的是和YOLO相比YOLO V2有更好的精度Faster 指的是修改了网络结构其检测更快Stronger 指的就是YOLO 9000,使用联合训练的方法同时使用目标检测和图像分类的数据集训练YOLO V2训练出来的模型能够实时的识别多达9000种目标所以也称为YOLO9000。Better 这部分主要是改进YOLO的两个缺点定位不精确召回率较低和基于候选区域的方法相比YOLO V2种并没有加深或者加宽网络结构反而简化了网络faster。 Batch Normalization 这个是CNN网络通用的方法了不但能够改善网络的收敛性而且能够抑制过拟合有正则化的作用。High Resolution Classifier 相比图像的分类任务目标检测需要更高的图像分辨率。而为了提取图像的特征目标检测网络的提取特征部分通常要在ImageNet数据集上进行预训练。从AlexNet结构开始大多数分类的网络的输入图像都小于$256 \times 256$在YOLO中使用$224 \times 224$的图像进行预训练但是在目标检测的网络中使用$448 \times 448$的图像进行训练。这样就意味着从用于分类的特征提取模型切换到目标检测网络还需要适应这种图像分辨率的改变。在YOLO V2中对此进行了改变了使用ImageNet数据集首先使用$224 \times 224$的分辨率训练160个epochs然后调整为$448 \times 448$在训练10个epochs。Convolutional With Anchor Boxes 在YOLO中在最后网络的全连接层直接预测目标边框的坐标在YOLO V2中借鉴 Fast R-CNN中的Anchor的思想。去掉了YOLO网络的全连接层和最后的池化层使提取特征的网络能够得到更高分辨率的特征。使用$416 \times 416$代替$448 \times 448$作为网络的输入。这是因为希望得到的特征图的尺寸为奇数。奇数大小的宽和高会使得每个特征图在划分cell的时候就只有一个center cell比如可以划分成77或99个cellcenter cell只有一个如果划分成88或1010的center cell就有4个。为什么希望只有一个center cell呢因为大的object一般会占据图像的中心所以希望用一个center cell去预测而不是4个center cell去预测。网络最终将416416的输入变成1313大小的feature map输出也就是缩小比例为32。5个池化层每个池化层将输入的尺寸缩小1/2。Anchor Boxes 在YOLO中每个grid cell只预测两个bbox最终只能预测98个bbox$7\times 7\times 298$而在Faster RCNN在输入大小为$1000\times 600$时的boxes数量大概是6000在SSD300中boxes数量是8732。显然增加box数量是为了提高object的定位准确率。过少的bbox显然影响了YOLO的定位的精度在YOLO V2中引入了Anchor Boxes的思想其预测的bbox则会超过千个以输出的feature map为$13 \times 13$为例每个grid cell有9个anchor box的话其预测的bbox数量为$13 \times 13 \times 9 1521$个。Dimension Clusters YOLO V2中引入了Faster R-CNN思想但是让大佬单纯的使用别人的想法而不加以改进是不可能的。在Faster R-CNN中每个Anchor box的大小以及形状是预先设定好的然后在网络种通过边框回归来调整每个Anchor Box的边框。但是如果开始就选择好的边框Faster R-CNN中的边框是手工设计的3种大小3种形状共9种那么网络肯定能更好的预测。 YOLO 作者使用据类的思想对训练集能够生成的所有Anchor box做聚类以此来找到合适的预设的Anchor box.另外作者发现如果采用标准的k-means即用欧式距离来衡量差异在box的尺寸比较大的时候其误差也更大而我们希望的是误差和box的尺寸没有太大关系。所以通过IOU定义了如下的距离函数使得误差和box的大小无关,故使用如下的距离度量\[ d ( \text { box, centroid } ) 1 - \text { IOU } ( \text { box, centroid } ) \] 也就是针对同一个grid cell其将IOU相近的聚到一起如下图左边表示选择不同聚类中心的$K$和平均IOU的关系不同曲线表示两种数据集2007 VOC 和COCO。 YOLO V2选择了$K2$在模型的复杂度和召回率之间做个平衡。右边5种紫框和黑色的边框表示两种数据集下最终聚类选择的5中bbox的形状和大小从图看出两种数据集的形状类似大小相近。图中也可以看出一个的大的bbox差不多是正方形另外3个是高瘦的形状最后一个则是矮胖的形状这和Faster R-CNN手动选择的9种形状还是有所不同的。 Direct location prediction 解决了每个Grid Cell生成的bounding box的个数问题直接按照Faster R-CNN的方法又遇到了第二个问题模型不稳定特别是在早期的迭代中而这种不稳定是由于预测box的位置$(x,y)$引起的。在区域推荐的方法中其网络学习的结果$(tx,ty)$bbox的中心位置相对于ground truth的中尉$(x,y)$的平移量如候选区域的bbox的中心为$(x_p,y_p)$宽和高为$(w_p,h_p)$则有如下的等式\[ x x_p w_p * tx \\ y y_p h_p * ty \] 这种位置的平移是没有任何限制的,例如$t_x 1$,则将bbox在$x$轴向右移动$w_p$$t_x -1$则将其向左移动$w_p$。也是说不管初始的bbox在图像的什么位置通过预测偏移量可以将bbox移动到图像的任何位置。对于YOLO V2这种随机初始化bbox的位置需要训练很久的一段时间才能学习到平移量的合适的值。基于候选区域的R-CNN 其初始的bbox并不是随机的而是通过RPN网络生成的。 YOLO V2中没有使用候选区域的直接预测偏移量而是沿用YOLO的方法预测位置相对于当前grid cell的偏移量。YOLO V2网络最后输出的特征层为$13 \times 13$然后每个cell生成5个bbox针对每个bbox得到5个值$(t_x,t_y,t_w,t_h,t_o)$$(t_x,t_y)$表示bbox中心相对于grid cell左上角的偏移并且将其平移量限制在一个grid cell内使用$sigmoid$函数处理处理偏移值将其限制在$(0,1)$范围内每个grid cell的尺度看做1。所以得到下面的公式\[ \begin{aligned} b _ { x } \sigma \left( t _ { x } \right) c _ { x } \\ b _ { y } \sigma \left( t _ { y } \right) c _ { y } \\ b _ { w } p _ { w } e ^ { t _ { w } } \\ b _ { h } p _ { h } e ^ { t _ { h } } \end{aligned} \] 其中$(C_x,C_y)$为当前grid cell相对于图像的左上角的距离以grid cell的个数为单位。$p_w,p_h$为为先验框的宽和高。如下图$(C_x,C_y)$为当前grid cell相对于图像的左上角的距离以grid cell为单位则当前cell的左上角坐标为$(1,1)$;$p_w,p_h$为为先验框的宽和高,其值也是相对于特征图的大小在特征都中每个cell的大小为1。这里记特征图的大小为$(W,H)$YOLO V2为$(13,13)$这样就可以将边框相对于图像的大小和位置计算出来\[ \begin{aligned} b _ { x } (\sigma \left( t _ { x } \right) c _ { x })/W \\ b _ { y } (\sigma \left( t _ { y } \right) c _ { y })/H \\ b _ { w } p _ { w } e ^ { t _ { w } } / W\\ b _ { h } p _ { h } e ^ { t _ { h } }/H \end{aligned} \] 在将上面得到的$b_x,b_y,b_w,b_H$乘以图像的宽和高像素为单位就可以求得边框在图像的位置。例如假如预测输出的值$(t_x,t_y,t_w,t_h) (0.2,0.1,0.2,0.32)$当前cell的相对于特征图左上角的坐标为$(1,1)$Anchor box预设的宽和高为$p_w 3.19275,p_h 4.00944$则有\[ \begin{align*} b_x 0.2 1 1.2 \\ b_y 0.1 1 1.1 \\ b_w 3.19275 * e ^ {0.2} 3.89963 \\ b_h 4.00944 * e ^ {0.32} 5.52151 \end{align*} \] 上面的计算的距离都是相对于$13 \times 13$的特征图而言的其单位为grid cell的边长。 YOLO V2输入的图像尺寸为$416 \times 416$则每个grid cell的边长为$416 / 13 32$将上述位置换算到以像素为单位\[ \begin{align*} b_x 1.2 * 32 38.4 \\ b_y 1.1 * 32 35.2 \\ b_w 3.89963 * 32 124.78 \\ b_h 5.52151 * 32 176.68 \end{align*} \] 这样就得到了一个在原图上以$(38.4,35.2)$为中心宽高为$(124.78,176.68)$的边框。 Fine-Grained Features YOLO V2是在$13 \times 13$的特征图上做检测这对于一些大的目标是足够了但是对于小目标则需要更写细粒度的特征。 Faser R-CNN和SSD都在不同层次的特征图上产生区域建议SSD直接就可看得出来这一点获得了多尺度的适应性YOLO V2则使用了一种不同的方法添加要给转移层(passthrough layer)该层将浅层的特征图($26 \times 26$)连接到最终使用的深层特征度(#13 \times 13$)。这个转移层有点类似ResNet的dentity mappings结构将浅层和深层两种不同尺寸的特征连接起来将$26 \times 26 \times 512$的特征图和$13 \times 13 \times 1024$的特征图连接起来。passthrough layer具体来说就是特征重排不涉及到参数学习$26 \times 26 \times 512$的特征使用按行和按列隔行采样的方法就可以得到4个新的特征图维度都是$13 \times 13 \times 512$的特征然后做concat操作得到$13 \times 13 \times 2048$的特征图将其拼接到后面$13 \times 13 \times1024$得到$13 \times 13 \times 3072$的特征图相当于做了一次特征融合有利于检测小目标。下图是passthrough layer的一个实例 Multi-Scale Training YOLO中使用$448\times448$作为输入而且由于使用了全连接层无法改变输入的图像的大小在 YOLO V2中将全连接层替换为了卷积层也就是说只有卷积层和池化层这样就可以处理任意尺寸的图像。为了应对不同尺寸的图像YOLO V2中在训练的时候使用不同的尺寸图像。 YOLO V2在训练的时候每经过几轮每经过10epochs迭代后就会微调网络随机选择新的图片尺寸。YOLO网络使用的降采样参数为32那么就使用32的倍数进行尺度$\{320,352,\cdots608\}$。最终最小的尺寸为$320 \times 320$最大的尺寸为$608 \times 608$。 Summary YOLO V2针对YOLO定位不准确以及召回率低的问题进行一些改变。主要是借鉴Faster R-CNN的思想引入了Anchor box。并且使用k-means的方法通过聚类得到每个Anchor应该生成的Anchor box的的大小和形状。为了是提取到的特征有更细的粒度其网络中借鉴ResNet的思想将浅层的高分辨率特征和深层的特征进行了融合这样能够更好的检测小的目标。最后由于YOLO V2的网络是全卷积网络能够处理任意尺寸的图像在训练的时候使用不同尺度的图像以应对图像尺寸的变换。 Faster 大多数检测网络有赖于VGG-16作为特征提取部分VGG-16的确是一个强大而准确的分类网络相应的其计算量也是巨大的。 YOLO V2中使用基于GoogLeNet的网络结构Darknet-19在损失一些精度的情况下大大的提高运算速度。 Darknet-19作为YOLO V2的特征提取网络参考了一些其他的网络结构的经验 VGG使用了较多的$3\times3$卷积核在每一次池化操作后把通道数翻倍。GoogLeNet的network in network的思想网络使用了全局平均池化global average pooling把$1\times1$的卷积核置于$3\times3$的卷积核之间用来压缩特征。使用batch normalization稳定模型训练抑制过拟合最终得出的基础模型就是Darknet-19如下图其包含19个卷积层、5个最大值池化层maxpooling layers 下图展示网络具体结构。Darknet-19在ImageNet图片分类top-1准确率72.9%top-5准确率91.2% 上述的网络结构是用于ImageNet的预训练网络其输入的是$224\times224$最后几轮调整为$448 \times 448$。在ImageNet预训练完成后需要调整上面的网络结构去掉最后的卷积层添加三个$3 \times 3 \times 1024$的卷积层且在这三个卷积层的每个后面添加$1 \times 1$的卷积层。在检测的时输入的是$416 \times 416$通过了5个池化层的降维在最后的卷积层输出的特征为$13 \times 13 \times 1024$。前面提到为了得到更细粒度的特征添加了passthrough layer,将浅层的$26 \times 26 \times 512$是输入到最后一个池化层前的特征融合到最终输出的$13 \times 13 \times 1024$作为最终用于检测的特征$13 \times 13 \3072$。用于的检测的cell有$13 \times 13 $每个cell要生成的5个bbox每个bbox需要预测其位置和置信度$(t_x,t_y,t_w,t_h,t_0)$以及其每个类别的概率20个所以最终输出为$13 \times 13 \times 5 \times (5 20) 13 \times 13 \times 125$. Stroner YOLO9000 YOLO9000是在YOLOv2的基础上提出的一种可以检测超过9000个类别的模型其主要贡献点在于提出了一种分类和检测的联合训练策略。众多周知检测数据集的标注要比分类数据集打标签繁琐的多所以ImageNet分类数据集比VOC等检测数据集高出几个数量级。在YOLO中边界框的预测其实并不依赖于物体的标签所以YOLO可以实现在分类和检测数据集上的联合训练。对于检测数据集可以用来学习预测物体的边界框、置信度以及为物体分类而对于分类数据集可以仅用来学习分类但是其可以大大扩充模型所能检测的物体种类。 summary YOLO V2在YOLO主要的改动就是引入了Anchor box以及修改了其用于特征提取的网络在检测时去掉了全连接层整个网络全部使用卷积层。 YOLO V3 YOLO作者对 YOLO V2做了一些小的改动。主要以下两个方面: 使用残差模型,构建更深的特征提取网络使用FPN架构Feature Pyramid Networks for Object Detection来实现多尺度检测Darkent-53 YOLO V3特征提取网络使用了残差模型相比YOLO V2使用的Darknet-19其包含53个卷积层所以称为Darknet-53.其网络结构如下图 Darknet-53在ImageNet数据集上的性能和ResNet相比其速度快了很多精度却相差不大。多尺度预测采用FPN架构Feature Pyramid Networks for Object Detection来实现多尺度检测如下图 YOLOv3采用了3个尺度的特征图当输入为$416 \times 416$时:$(13\times 13)(26\times 26),(52\times 52)$,YOLOv3每个位置使用3个先验框所以使用k-means得到9个先验框并将其划分到3个尺度特征图上尺度更大的特征图使用更小的先验框。 summary 大体学习了下YOLO系列的目标检测但是其中的一些细节还不是很明了需要结合代码实现了。转载于:https://www.cnblogs.com/wangguchangqing/p/10480995.html

查看全文

http://www.zqtcl.cn/news/896434/