做网站需要的素材照片,临沂广润网站建设,可以做投票的网站,百度手机端排名如何优化一、YOLO-V1整体思想与网络架构
1.1 YOLO算法整体思路解读
YOLO-V1: 经典的one-stage方法 把检测问题转化成回归问题#xff0c;一个CNN就搞定了#xff01; 可以对视频进行实时检测#xff0c;应用领域非常广#xff01; 核心思想#xff1a; 1、预测一张图像中有哪些物…一、YOLO-V1整体思想与网络架构
1.1 YOLO算法整体思路解读
YOLO-V1: 经典的one-stage方法 把检测问题转化成回归问题一个CNN就搞定了 可以对视频进行实时检测应用领域非常广 核心思想 1、预测一张图像中有哪些物体交给谁来预测呢例如一张图像高度和宽度7×7观察一下物体落在了图像当中的某个位置了每个格子负责预测一下在你这个格子上它是什么物体比如如下图“狗”落在了图像当中一个区域但是了现在只关心它的中心点落到哪里比如红色框里有个中心点红色中心点点到图像的某个格子那么这个格子负责预测一下这个狗。怎么预测了图像中有两个黄色的框可以这么想黄色的框不是我们要的最终结果我们先这样红色格子去做预测了但是它也不知道这个狗长什么样子的那么需要一些经验的东西把候选框微调----回归任务(宽度、高度怎么变)并且还有起始位置x,y(起始位置可能是一个中心点) 2、首先输入是一个S×S的格子在这个格子当中希望每个格子里每个点产生出来两种候选框去做微调但是不是所有的候选框都做微调必须是有物体的微调什么时候判断有这样一个物体每个格子预测一个值–置信度置信度阈值的就可能是一个物体是物体了才对物体中有的两种候选框筛选出来一个(IOU大的一个)实际做结果把x,y,w,h算出来映射到原始图像当中就能把这个框算出来。 1.2 整体网络架构解读
网络架构 1.首先第一步拿到了一个输入图像大小为448×448×3(大小不能变主要原因是全连接层全连接层是定死的) 2.中间过程特征提取就是一个卷积神经网络(7×7×1024的特征图) 3.第一个全连接4096×1第二个全连接1470×1Reshape一下7×7×30这个值非常关键 7×7的格子30每个格子有30个值。对每一个格子要产生两种框。第一种框B1:x1,y1,w1,h1,c1 其中这里的x1,y1不是实际坐标值而是规划完之后相对整体图像来说的一个0-1之间的值它在相对的一个长宽的一个位置。B2x2,y2,w2,h2,c2 这样B1和B2总共10个值剩下的20个是20分类(不同数据集可能是80),预测一下每一个分类概率值等于多少。例如狗80%猫10%。如下图 S*S*(B*5C):最终格子大小S*S的B两个框C类别1.3 位置损失计算 做预测的值x,y,w,h和最终真实值之间肯定会有差异差异越小越好 位置误差 S*S网格当中对于每个格子都有预测每一个都要实际计算。对于其中某一个格子有两种框。当前cell i中的第i个box对这个物体负责有两个候选框但是对真实值来说它和两个候选框都能算一个IOU(最大的)然后算真实值和预测值之间的一个差异。加上根号说明了如果数值较小的话较为敏感数值较大的话相对来说没有那么敏感加根号解决了一点这个问题但是不够透彻在V1中。λcoord前面的系数在损失函数中表示权重项。 置信度误差 这里分成了两部分一部分是包含物体时置信度的损失一个是不包含物体时置信度的值。 其中前一项表示有无人工标记的物体落入网格内如果有则为1否则为0.第二项代表bounding box和真实标记的box之间的IoU。值越大则box越接近真实位置。confidence是针对bounding box的由于每个网格有两个bounding box所以每个网格会有两个confidence与之相对应。从损失函数上看当网格i中的第j个预测框包含物体的时候用上面的置信度损失而不包含物体的时候用下面的损失函数。对没有object的box的confidence loss赋予小的loss weight λnoobj记为在pascal VOC训练中取0.5。有object的box的confidence loss和类别的loss的loss weight正常取1。 类别损失: 类别损失这里也用了均方误差实际上感觉这里用交叉熵更好一些。其中 表示有无object的中心点落到网格i中如果网格中包含有物体object的中心的话那么就负责预测该object的概率。 总体来说对于不同的任务重要程度不同所以也应该给与不同的loss weight
每个网格两个预测框坐标比较重要给这些损失赋予更大的loss weight在pascal VOC中取值为5对没有object的box的confidence loss赋予较小的loss weight在pascal VOC训练中取0.5对有object的box的confidence loss和类别的loss weight正常取值为1
1.4 NMS(非极大值抑制) 基本原理是先在图像中找到所有可能包含目标物体的矩形区域并按照它们的置信度进行排列。然后从置信度最高的矩形开始遍历所有的矩形如果发现当前的矩形与前面任意一个矩形的重叠面积大于一个阈值则将当前矩形舍去。使得最终保留的预测框数量最少但同时又能够保证检测的准确性和召回率。具体的实现方法包括以下几个步骤 1、对于每个类别按照预测框的置信度进行排序将置信度最高的预测框作为基准 2、从剩余的预测框中选择一个与基准框的重叠面积最大的框如果其重叠面积大于一定的阈值则将其删除。 3、对于剩余的预测框重复步骤2直到所有的重叠面积都小于阈值或者没有被删除的框剩余为止。 通过这样的方式NMS可以过滤掉所有与基准框重叠面积大于阈值的冗余框从而实现检测结果的优化。值得注意的是NMS的阈值通常需要根据具体的数据集和应用场景进行调整以兼顾准确性和召回率。 总结来说非极大值抑制原理是通过较高置信度的目标框作为基准筛选出与其重叠度较低的目标框从而去除掉冗余的目标框提高目标检测的精度和效率。 1.5 YOLO-V1问题 优点快速简单 每个Cell只预测一个类别如果重叠无法解决 小物体检测效果一般长宽比可选的但单一