当前位置：首页 > news >正文

顺德网站建设7starrywordpress禁止更新插件

news 2025/11/14 22:04:26

顺德网站建设7starry,wordpress禁止更新插件,网站建设工作室小俊哥,沈阳和平三好街做网站前言 Hello大家好#xff0c;我是Snu77#xff0c;继YOLOv9发布时间没有多久#xff0c;YOLOv10就紧接着发布于2024.5.23号#xff08;不得不感叹YOLO系列的发展速度#xff0c;但要纠正大家的观点就是不是最新的就一定最好#xff09;#xff01; 本文给大家带来的是…前言 Hello大家好我是Snu77继YOLOv9发布时间没有多久YOLOv10就紧接着发布于2024.5.23号不得不感叹YOLO系列的发展速度但要纠正大家的观点就是不是最新的就一定最好本文给大家带来的是YOLOv10的论文详细解读-论文名称为:YOLOv10: Real-Time End-to-End Object Detection大家看着眼熟么是不是和RT-DETR的《DETRs Beat YOLOs on Real-time Object Detection》比较像从这个论文题目可以看到目前的创新方向都是往端到端和实时的方向去搞在精度上的创新已经不是很大了本文内含YOLOv10网络结构图各个创新模块手撕结构图举例讲解相信阅读完本文一定能够让你有所收获~ 论文地址官方论文地址点击此处即可跳转代码地址官方代码地址点击此处即可跳转摘要过去几年中由于YOLO在计算成本和检测性能之间的有效平衡它已经成为实时目标检测领域的主要范式。研究人员探索了YOLO的架构设计、优化目标、数据增强策略等方面取得了显著进展。然而YOLO依赖于非极大值抑制NMS进行后处理这阻碍了YOLO的端到端部署并对推理延迟产生了不利影响。此外YOLO的各种组件设计缺乏全面深入的检查导致明显的计算冗余限制了模型的能力。这导致了效率不佳同时也有很大的性能提升潜力。在这项工作中我们旨在从后处理和模型架构两方面进一步提升YOLO的性能-效率边界。为此我们首先提出了一致的双重分配策略用于YOLO的NMS-free训练这同时带来了竞争力的性能和低推理延迟。此外我们引入了整体效率-精度驱动的模型设计策略。我们从效率和精度的角度全面优化了YOLO的各个组件大大减少了计算开销并增强了能力。我们的努力成果是一个新的YOLO系列用于实时端到端目标检测称为YOLOv10。大量实验表明YOLOv10在各种模型规模上都达到了最先进的性能和效率。例如在COCO数据集上YOLOv10-S在相似AP的情况下比RT-DETR-R18快1.8倍同时参数和FLOPs减少了2.8倍。与YOLOv9-C相比YOLOv10-B在相同性能下的延迟减少了46%参数减少了25%。一、引言实时目标检测一直是计算机视觉领域的研究重点旨在以低延迟准确预测图像中物体的类别和位置。它被广泛应用于各种实际应用中包括自动驾驶、机器人导航和物体跟踪等。近年来研究人员集中精力设计基于CNN的目标检测器以实现实时检测。其中YOLO由于其在性能和效率之间的平衡越来越受欢迎。YOLO的检测流程由两个部分组成模型前向过程和NMS后处理。然而这两部分仍存在不足导致准确性-延迟界限不理想。段落总结YOLOv10的主要创新点其实就是对取消后处理NMS部分读者可能对NMS比较陌生这里带大家简单学习下 NMS额外介绍非极大值抑制Non-Maximum Suppression, NMS是一种常用的后处理技术用于目标检测算法中以减少冗余检测框并确保检测结果的精确性。NMS的主要目标是在同一物体上保留一个最佳的检测框同时抑制那些得分较低的重叠框。下面是NMS的工作原理和应用 NMS的工作原理检测框排序首先将所有检测框按照置信度即检测得分从高到低排序。选择最高得分的检测框选择得分最高的检测框作为当前的最佳检测结果。计算重叠区域对于剩余的所有检测框计算它们与当前最佳检测框的重叠度通常使用交并比IoU即Intersection over Union。抑制重叠框将那些与当前最佳检测框的重叠度超过某一阈值的检测框抑制即移除因为它们很可能是对同一物体的重复检测。重复步骤2-4在剩余的检测框中重复上述步骤直到没有检测框剩余。 NMS的局限性尽管NMS在实践中非常有效但它也存在一些局限性例如参数敏感性NMS需要设置重叠度阈值这个参数的选择对最终结果有很大影响过高或过低的阈值都会影响检测效果有的时候我们用Detect的时候进行推理会出现一个物体有多个检测框其实根据参数的设置也有一定的关系。速度影响在大规模检测任务中NMS的计算复杂度可能会影响整体的推理速度这也是YOLOv10去掉NMS的主要原因提高推理速度从而实现端到端。无法处理复杂场景对于一些复杂场景如拥挤的人群或密集的目标NMS可能无法有效区分相邻的多个目标。具体而言YOLO在训练期间通常采用一对多的标签分配策略其中一个真实物体对应多个正样本。尽管这种方法能获得更好的性能但需要在推理过程中使用NMS选择最佳正预测这减慢了推理速度并使性能对NMS的超参数敏感阻碍了YOLO的端到端部署。为解决这一问题可以采用最近引入的端到端DETR架构。例如RT-DETR通过高效的混合编码器和不确定性最小的查询选择个人理解本质和NMS原理其实是相似的不对欢迎评论区指正推动DETR进入实时应用领域。然而DETR的内在复杂性阻碍了其在准确性和速度之间达到最佳平衡。另一种方法是探索基于CNN的端到端检测通常采用一对一的分配策略来抑制冗余预测但通常会引入额外的推理开销或达不到理想的性能。此外模型架构设计仍是YOLO的一个基本挑战对准确性和速度有重要影响。为了实现更高效和有效的模型架构研究人员探索了不同的设计策略。提出了各种主要计算单元来增强特征提取能力例如DarkNet、CSPNet、EfficientRep和ELAN等。为了增强多尺度特征融合还探索了PAN、BiC、GD和RepGFPN等。此外还研究了模型缩放策略和重新参数化技术。尽管这些努力取得了显著进展但缺乏对YOLO各个组件的全面检查导致YOLO内部存在相当大的计算冗余导致参数利用效率低下和效率不佳。此外结果模型能力也受到限制留有很大的精度提升空间其实YOLOv10目前的反馈大家精度其实都不是很好。在这项工作中我们旨在解决这些问题并进一步提升YOLO的准确性-速度界限。我们针对整个检测流程中的后处理和模型架构进行了改进。首先通过引入一致的双重分配策略这里说的双重分配策略其实就是指调用了两次V8的损失函数计算方法然后进行了一个求和具体代码大家可以在YOLOv10的项目文件的如下文件的最末尾看到ultralytics/utils/loss.py一下图片是我在代码中的截图并进行了标注大家感兴趣的可以自行找到代码中进行观看但是具体的改进还是体现在检测头中解决了后处理中的冗余预测问题使YOLO在训练期间享有丰富而和谐的监督信号同时在推理时无需NMS从而实现高效的竞争性性能。其次我们提出了整体效率-精度驱动的模型设计策略通过对YOLO各组件进行全面检查从效率和精度的角度优化模型架构。为提高效率我们提出了轻量级分类头Yaml文件中体现不出来但是从代码上看只是重新布局了Conv的操作、空间-通道分离下采样SCDown和基于秩的块设计(C2fUIB)以减少显著的计算冗余实现更高效的架构。为提高精度我们探索了大核卷积并提出了有效的部分自注意力模块以增强模型能力在低成本下实现性能改进PSA。基于这些方法我们成功地实现了一个新的实时端到端检测器系列即YOLOv10-N / S / M / B / L / X。标准目标检测基准如COCO上的广泛实验表明YOLOv10在计算-精度权衡方面显著优于以前的最先进模型。例如YOLOv10-S / X在相似性能下分别比RT-DETR-R18 / R101快1.8倍和1.3倍。与YOLOv9-C相比YOLOv10-B在相同性能下延迟减少46%。此外YOLOv10表现出高效的参数利用率。YOLOv10-L / X分别比YOLOv8-L / X高出0.3 AP和0.5 AP参数减少1.8倍和2.3倍。YOLOv10-M在相似AP下分别比YOLOv9-M / YOLO-MS减少23%和31%的参数。总结通过改进后处理和模型架构提升YOLO的准确性和速度提出了YOLOv10。创新点引入一致的双重分配策略消除NMS依赖。提出整体效率-精度驱动的模型设计策略包括轻量级分类头、空间-通道分离下采样和基于秩的块设计。实验结果YOLOv10在多个基准测试中表现出色显著优于之前的最先进模型。二、相关工作实时目标检测器实时目标检测旨在在低延迟下对物体进行分类和定位这对于实际应用至关重要。过去几年中大量的努力集中在开发高效的检测器上。特别是YOLO系列脱颖而出成为主流之一。YOLOv1、YOLOv2和YOLOv3识别出典型的检测架构由三个部分组成即骨干网、颈部和头部。YOLOv4和YOLOv5引入了CSPNet设计来替代DarkNet同时结合了数据增强策略、增强的PAN和更多种类的模型规模等。YOLOv6为颈部和骨干网分别提出了BiC和SimCSPSPPF并采用了锚辅助训练和自我蒸馏策略。YOLOv7引入了E-ELAN以实现丰富的梯度流路径并探索了几种可训练的免费增益方法。YOLOv8提出了C2f构建块以实现有效的特征提取和融合。Gold-YOLO提供了先进的GD机制以提升多尺度特征融合能力。YOLOv9提出了GELAN来改进架构并通过PGI增强训练过程。端到端目标检测器端到端目标检测作为一种范式转变提供了简化的架构。DETR引入了变压器架构并采用匈牙利损失感兴趣的可以搜索一下匈牙利算法来实现一对一匹配预测从而消除了手工设计的组件和后处理。从那时起各种DETR变体被提出以增强其性能和效率。Deformable-DETR利用多尺度可变形注意模块加速收敛速度。DINO将对比降噪、混合查询选择和向前两次查看方案集成到DETR中。RT-DETR进一步设计了高效的混合编码器并提出了不确定性最小的查询选择以提高准确性和延迟。另一种实现端到端目标检测的方法是基于CNN的检测器。可学习的NMS和关系网络提出了另一种网络以去除检测器的重复预测。OneNet和DeFCN提出了一对一匹配策略使端到端目标检测能够完全依靠卷积网络实现。FCOSpss引入了正样本选择器以选择最佳样本进行预测。总结这部分介绍了实时目标检测器特别是YOLO系列的演变和端到端目标检测器的发展强调了不同架构设计和优化策略在提高检测性能和效率方面的重要性。通过这些努力研究人员不断推动目标检测技术的发展以满足实际应用的需求全是套话这段不是很重要。三、方法 3.1 无NMS训练的一致双重分配在训练过程中YOLO通常使用TAL标签分配策略为每个实例分配多个正样本。一对多分配的采用提供了丰富的监督信号有助于优化并实现优异的性能。然而这需要YOLO依赖于NMS后处理导致推理效率不佳。虽然先前的工作探索了一对一匹配为每个实例分配一个正样本避免NMS后处理。以抑制冗余预测但通常会引入额外的推理开销或导致次优性能。在这项工作中我们提出了一种无NMS训练策略通过双重标签分配和一致的匹配度量实现了高效率和竞争性性能。例子解释1 这里解释一下大家可能不懂的点一对多分配策略的解释假设我们有一张图像其中包含两个目标一个狗和一个猫。每个目标都有一个对应的真实边界框。标签分配在一对多分配策略下对于每个真实边界框例如狗的边界框会分配多个正样本。这些正样本是预测的边界框它们与真实边界框的重叠度通常用IoU表示超过某个阈值。例如对于狗的边界框模型可能会生成10个候选边界框其中有5个与真实边界框的IoU超过0.5这5个候选边界框将被分配为正样本。丰富的监督信号由于分配了多个正样本模型在训练过程中能够从更多的边界框中学习到相关信息。这些正样本提供了丰富的监督信号有助于模型更好地优化分类和定位能力。每个正样本都会计算一个损失例如分类损失和定位损失模型会根据这些损失来调整参数从而提高检测精度。依赖NMS后处理在推理阶段即模型应用于新图像时注意此处是在推理阶段我注意到Github上有人对作者的计算量进行质疑说和论文中公布的参数量不一致有人回复是说训练的时候没有用到NMS所以此处的计算量可以忽略不记仅仅是在推理阶段生效 | 我理解的就是论文公布的计算量是在推理阶段的我们实际训练的时候可能参数量要大一些不知道对不对如果不对欢迎大家在评论区指正由于一对多分配策略会产生多个重叠的正样本即多个边界框可能检测到同一个目标因此需要使用NMS非极大值抑制来选择最优的预测边界框。NMS会抑制重叠度高的非最佳边界框只保留得分最高的边界框以减少冗余检测。图片2描述图展示了无NMS训练的一致双重分配策略以及YOLOv8-S模型在一对多结果中的一对一分配频率。例子解释2 举例理解大家看到这里可能还是晕头转向的对于这个一致双重分配策略不太理解下面举个例子带大家理解下- 例子背景假设我们有一张包含三个目标一个狗、一个猫和一个鸟的图像。每个目标都有一个对应的真实边界框。在训练过程中我们希望模型能够准确地预测这些边界框的位置和类别。一对多分配在一对多分配策略中模型会为每个真实边界框分配多个预测边界框作为正样本。假设对于狗的真实边界框模型生成了10个候选边界框其中有4个与真实边界框的IoU超过了设定的阈值例如0.5这4个边界框都会被视为正样本。这样做的目的是丰富监督信号通过多个正样本模型在训练过程中能够获得更多的反馈帮助其更好地学习目标的特征。优化效果更好由于有更多的正样本参与优化模型的性能通常会更好。一对一分配One-to-One Assignment 在一对一分配策略中每个真实边界框只分配一个预测边界框作为正样本。例如对于狗的真实边界框模型只选择与其IoU最高的一个预测边界框作为正样本。这种方法的优点是无需NMS后处理因为每个目标只有一个正样本避免了推理过程中使用非极大值抑制NMS来消除重复检测。更高效的推理省去了NMS步骤推理速度更快。一致双重分配策略重点一致双重分配策略结合了一对多和一对一分配的优点在训练和推理过程中分别使用这两种方法。 1. 训练阶段一对多头利用一对多分配策略为每个真实边界框分配多个正样本提供丰富的监督信号帮助模型更好地学习。一对一头同时利用一对一分配策略为每个真实边界框分配一个正样本确保训练过程中模型能够学会选择最佳的预测边界框。 2. 推理阶段在推理阶段只使用一对一头进行预测因为一对一分配确保每个目标只有一个正样本避免了冗余预测和NMS后处理。一致匹配度量重点为了使两个分支在训练过程中保持一致采用了一致的匹配度量。匹配度量用于评估预测边界框与真实边界框之间的一致性公式为其中是分类得分和分别是预测边界框和真实边界框表示空间先验和是超参数。通过一致的匹配度量可以确保一对一头和一对多头在优化方向上的一致性进一步提升模型的性能。希望能通过这个例子帮助大家理解一下这个策略如果不对欢迎评论区指正双重标签分配论文翻译具体上面已经用例子解释过了与一对多分配不同一对一匹配仅为每个真实值分配一个预测避免了NMS后处理。然而这导致了弱监督从而导致次优的准确性和收敛速度。幸运的是这一缺陷可以通过一对多分配来弥补。为此我们引入了YOLO的双重标签分配结合了两种策略的优势。具体而言如图2.(a)[前面展示过的图片]所示我们为YOLO增加了另一个一对一头。它保留了与原始一对多分支相同的结构并采用相同的优化目标但利用一对一匹配获得标签分配。在训练过程中两个头与模型一起联合优化使骨干和颈部享有一对多分配提供的丰富监督。在推理过程中我们丢弃一对多头并利用一对一头进行预测从而无需额外的推理成本即可实现YOLO的端到端部署。此外在一对一匹配中我们采用最高选择取得了与匈牙利匹配相同的性能但训练时间更少。论文翻译下面是论文中给出的例子给定一个实例我们将其与预测的最大IoU表示为u*一对多和一对一匹配的最大分数分别表示为mo2m和mo2o。假设一对多分支产生了正样本Ω一对一分支选择了度量为mo2o,i的第i个预测我们可以推导出分类目标to2m,j u · mo2m,j / mo2m ≤ u对于j ∈ Ω 和to2o,i u* · mo2o,i / mo2o u如[20, 59, 27, 64, 14]中所述的任务对齐损失。两个分支之间的监督差距可以通过不同分类目标的1-Wasserstein距离来推导即 A to2o,i − I(i ∈ Ω)to2m,i \sum_{k∈Ω\{i}}to2m,k 我们可以观察到随着to2m,i的增加差距减小即i在Ω中的排名越高。当to2m,i u*时差距达到最小即i是Ω中的最佳正样本如图2.(a)所示。为此我们提出了一致的匹配度量即αo2o r · αo2m和βo2o r · βo2m这意味着mo2o mr o2m。因此一对多头的最佳正样本也是一对一头的最佳样本。这样两个头可以一致和谐地优化。为简单起见我们默认取r 1即αo2o αo2m和βo2o βo2m。为验证改进的监督对齐我们统计了训练后在一对多结果中前1 / 5 / 10的一对一匹配对的数量。如图2.(b)所示在一致的匹配度量下对齐有所改进。关于数学证明的更全面理解请参见附录。 3.2 整体效率-精度驱动的模型设计除了后处理之外本章节主要介绍的是一些结构性的创新本章节附我个人手撕的各个结构图YOLO模型的架构也在效率-精度权衡方面带来了巨大的挑战。尽管之前的工作探索了各种设计策略但对YOLO各个组件的全面检查仍然缺乏。因此模型架构表现出不可忽视的计算冗余和受限的能力阻碍了其实现高效率和高性能的潜力。在这里我们旨在从效率和精度的角度全面进行YOLO的模型设计。效率驱动的模型设计 YOLO的组件包括干stem、下采样层、带有基本构建块的阶段和头部和主干部分计算成本较低因此我们对其他三个部分进行效率驱动的模型设计。图3说明 (a) YOLOv8各阶段和模型的内在秩图3(a)展示了YOLOv8模型中骨干和颈部各阶段的内在秩。具体信息如下内在秩内在秩是通过计算各阶段最后一个基本块的最后一个卷积的数值秩来确定的。数值秩表示超过某个阈值的奇异值数量。归一化数值秩在y轴上归一化为其中表示输出通道的数量阈值默认设置为其中是最大的奇异值。观察结果深层阶段和大型模型通常表现出较低的内在秩值这表明这些阶段和模型存在较多的冗余。图3(b) 紧凑倒置块CIB 图3(b)展示了紧凑倒置块Compact Inverted Block, CIB的结构组成部分CIB采用廉价的深度卷积进行空间混合并采用成本效益高的点卷积进行通道混合。应用CIB可以作为高效的基本构建块例如嵌入ELAN结构中。图3(c) 部分自注意力模块PSA 图3(c)展示了部分自注意力模块Partial Self-Attention, PSA的结构组成部分PSA模块首先通过1×1卷积将特征均匀地划分为两部分。然后只有一部分进入由多头自注意力模块MHSA和前馈网络FFN组成的NPSA块。最后两部分特征被连接并通过1×1卷积融合这就是指的是二次创新在MSHA上也是我们大家发论文主要研究的方向。优化在MHSA中查询和键的维度设为值的一半并将LayerNorm替换为BatchNorm以加快推理速度。位置PSA仅在分辨率最低的Stage 4之后放置以避免自注意力的二次复杂性带来的过多开销。通过这些模块的优化设计YOLOv8模型在保持高性能的同时实现了更高的效率和计算资源利用率。 1. 轻量级分类头 YOLO中的分类头和回归头通常共享相同的架构。然而它们在计算开销上表现出显著差异。例如YOLOv8-S中的分类头5.95G/1.51M的FLOPs和参数数量分别是回归头2.34G/0.64M的2.5倍和2.4倍。然而分析分类误差和回归误差的影响后我们发现回归头对YOLO的性能更为重要。因此我们可以减少分类头的开销而不显著影响性能。因此我们采用了一个轻量级架构的分类头它由两个核大小为3×3的深度可分离卷积和一个1×1卷积组成。 2. 空间-通道分离下采样 YOLO通常利用带有步幅2的常规3×3标准卷积同时实现空间下采样从H×W到H/2×W/2和通道变换从C到2C。这引入了不可忽视的计算成本和参数数量相反我们提出分离空间减少和通道增加操作进行更高效的下采样。具体而言我们首先利用点卷积调整通道维度然后利用深度卷积进行空间下采样。这将计算成本减少到和参数数量减少到。同时这最大限度地保留了下采样过程中的信息从而在减少延迟的同时实现竞争性性能。 3. 基于秩的块设计 YOLO通常为所有阶段使用相同的基本构建块例如YOLOv8中的瓶颈块。为全面检查这种同质设计的冗余我们利用内在秩分析各阶段的冗余。具体而言我们计算每个阶段最后一个基本块的最后一个卷积的数值秩表示超过阈值的奇异值数量。图3.(a)展示了YOLOv8的结果表明深层阶段和大模型往往表现出更多冗余。此观察表明简单地为所有阶段应用相同的块设计对于最佳的容量-效率权衡来说是次优的。为此我们提出了一种基于秩的块设计方案旨在通过紧凑的架构设计减少冗余阶段的复杂性。我们首先提出了一种紧凑的倒置块CIB结构它采用廉价的深度卷积进行空间混合并采用成本效益高的点卷积进行通道混合如图3.(b)所示。它可以作为高效的基本构建块例如嵌入ELAN结构中。然后我们倡导一种基于秩的块分配策略以在保持竞争性容量的同时实现最佳效率。具体而言给定一个模型我们按内在秩从低到高排序其所有阶段。我们进一步检查用CIB替换领先阶段的基本块的性能变化。如果与给定模型相比没有性能下降我们继续替换下一个阶段否则停止该过程。这样我们可以在各个阶段和模型规模中实现自适应紧凑块设计在不影响性能的情况下实现更高的效率。由于篇幅限制算法细节请参见附录。通过这种整体效率-精度驱动的模型设计策略我们可以显著提高YOLO模型的性能和效率使其在各种应用场景中表现出色。 3.3 精度驱动的模型设计我们进一步探索大核卷积和自注意力机制旨在以最小的成本提升性能。 (1) 大核卷积采用大核深度卷积是一种有效的方法可以扩大感受野并增强模型的能力。然而在所有阶段简单地使用它们可能会导致以下问题浅层特征污染在浅层特征中使用大核卷积可能会影响检测小物体的效果。高分辨率阶段的I/O开销和延迟在高分辨率阶段使用大核卷积会显著增加I/O开销和延迟。因此我们建议在深层阶段的紧凑倒置块CIB中使用大核深度卷积。具体来说我们将CIB中第二个3×3深度卷积的核大小增加到7×7。此外我们采用结构重新参数化技术在不增加推理开销的情况下引入另一个3×3深度卷积分支以缓解优化问题。随着模型规模的增加其感受野自然扩展大核卷积的好处减少。因此我们仅在小模型规模中采用大核卷积。 (2) 部分自注意力PSA 自注意力在各种视觉任务中得到了广泛应用因为它具有显著的全局建模能力。然而自注意力机制表现出较高的计算复杂度和内存占用。为了解决这个问题鉴于注意力头冗余的普遍存在我们提出了一种高效的部分自注意力PSA模块设计如图3(c)所示。具体来说我们通过1×1卷积将特征均匀地划分为两部分。然后我们仅将其中一部分输入到由多头自注意力模块MHSA和前馈网络FFN组成的NPSA块中。两部分特征随后被连接并通过1×1卷积融合。此外我们遵循将MHSA中查询和键的维度分配为值的一半并将LayerNorm替换为BatchNorm以加快推理速度。 PSA仅在分辨率最低的Stage 4之后放置以避免自注意力二次复杂性带来的过多开销。通过这种方式可以在低计算成本下将全局表示学习能力引入YOLO模型从而增强模型能力并提高性能。通过这些精度驱动的设计我们能够在不显著增加计算成本的情况下提升YOLO模型的性能。四、实验 4.1 实现细节我们选择YOLOv8作为基线模型因为它在延迟和准确性之间具有良好的平衡并且提供了各种模型尺寸。我们采用一致的双重分配策略进行无NMS训练并基于此进行整体效率-精度驱动的模型设计从而开发了YOLOv10模型。YOLOv10具有与YOLOv8相同的变体即N / S / M / L / X。此外我们通过简单地增加YOLOv10-M的宽度缩放因子派生出一个新的变体YOLOv10-B。我们在COCO数据集上验证了所提出的检测器并在相同的从头训练设置下进行验证。此外所有模型的延迟测试都在T4 GPU上使用TensorRT FP16进行遵循相关研究的方法。 4.2 与最先进方法的比较如表1所示我们的YOLOv10在各种模型规模上实现了最先进的性能和端到端延迟。我们首先将YOLOv10与我们的基线模型YOLOv8进行比较。在N / S / M / L / X五种变体上YOLOv10分别实现了1.2% / 1.4% / 0.5% / 0.3% / 0.5%的AP提升同时参数减少了28% / 36% / 41% / 44% / 57%计算量减少了23% / 24% / 25% / 27% / 38%延迟降低了70% / 65% / 50% / 41% / 37%。与其他YOLO模型相比YOLOv10在准确性和计算成本之间也表现出更优的权衡。具体来说对于轻量级和小型模型YOLOv10-N / S比YOLOv6-3.0-N / S分别高出1.5 AP和2.0 AP。表1中列出了与最先进方法的比较。延迟是使用官方预训练模型测量的。Latencyf表示模型在没有后处理时前向过程的延迟。†表示YOLOv10使用原始一对多训练并采用NMS的结果。为了公平比较所有结果均未使用诸如知识蒸馏或PGI等额外的高级训练技术。相比于APYOLOv10在参数量和计算量上分别减少了51% / 61%。对于中等规模的模型YOLOv10-B / M相较于YOLOv9-C / YOLO-MS在相同或更好的性能下分别减少了46% / 62%的延迟。对于大型模型相较于Gold-YOLO-L我们的YOLOv10-L减少了68%的参数量和32%的延迟同时显著提升了1.4%的AP。此外与RT-DETR相比YOLOv10在性能和延迟上均有显著提升。值得注意的是YOLOv10-S / X在类似性能下推理速度分别比RT-DETR-R18 / R101快1.8倍和1.3倍。这些结果充分证明了YOLOv10作为实时端到端检测器的优越性。我们还使用原始的一对多训练方法将YOLOv10与其他YOLO模型进行比较。在这种情况下我们考虑了模型前向过程的性能和延迟Latencyf如[56, 20, 54]所示。表1显示YOLOv10在不同模型规模上也表现出最先进的性能和效率表明我们的架构设计具有有效性。 4.3 模型分析消融研究。我们在表2中展示了基于YOLOv10-S和YOLOv10-M的消融结果。可以观察到我们的无NMS训练通过一致的双重分配显著减少了YOLOv10-S的端到端延迟4.63毫秒同时保持了44.3%的竞争性性能。此外我们的效率驱动模型设计减少了11.8M参数和20.8 GFLOPs同时对于YOLOv10-M的延迟减少了0.65毫秒充分展示了其有效性。更进一步我们的精度驱动模型设计对于YOLOv10-S和YOLOv10-M分别取得了1.8 AP和0.7 AP的显著提升延迟仅增加了0.18毫秒和0.17毫秒这很好地展示了其优越性。无NMS训练的分析双重标签分配。我们为无NMS的YOLO模型引入了双重标签分配这在训练过程中可以带来一对多o2m分支的丰富监督并在推理过程中带来一对一o2o分支的高效率。我们基于YOLOv8-S表2中的#1验证了它的优势。具体而言我们分别引入了仅用o2m分支和仅用o2o分支进行训练的基线。正如表3所示我们的双重标签分配在AP-延迟权衡上实现了最佳表现。一致的匹配度量。我们引入一致的匹配度量使一对一头与一对多头更加协调。我们基于YOLOv8-S表2中的#1在不同的αo2o和βo2o下验证了其优势。正如表4所示所提出的一致匹配度量即αo2or · αo2m和βo2or · βo2m可以实现最佳性能其中一对多头中的αo2m0.5和βo2m6.0 [20]。这种改进可归因于监督差距的减少方程2从而在两个分支之间提供了更好的监督对齐。此外所提出的一致匹配度量消除了对耗时的超参数调优的需求这在实际场景中具有吸引力。效率驱动模型设计的分析。我们基于YOLOv10-S/M逐步引入效率驱动设计元素进行实验。我们的基线是没有效率-准确性驱动模型设计的YOLOv10-S/M模型表2中的#2/#6。如表5所示每个设计组件包括轻量化分类头、空间-通道解耦下采样和排序引导块设计都有助于减少参数数量、FLOPs和延迟。重要的是这些改进是在保持竞争性能的情况下实现的。轻量化分类头。我们基于表5中的YOLOv10-S的#1和#2分析了预测类别和定位错误对性能的影响如[6]。具体而言我们通过一对一分配将预测与实例匹配。然后我们用实例标签替换预测的类别得分得到没有分类错误的APval w/o c。同样我们用实例的定位替换预测的定位得到没有回归错误的APval w/o r。如表6所示APval w/o r远高于APval w/o c表明消除回归错误带来了更大的改进。因此性能瓶颈更多地在于回归任务。因此采用轻量化分类头可以在不影响性能的情况下提高效率。空间-通道解耦下采样。我们为提高效率对下采样操作进行了解耦其中通过逐点卷积PW首先增加通道维度然后通过深度卷积DW减少分辨率以最大限度地保留信息。我们基于表5中的YOLOv10-S将其与通过DW进行空间缩减然后通过PW进行通道调整的基线方法进行了比较。如表7所示我们的下采样策略通过减少下采样过程中信息损失实现了0.7%的AP提升。紧凑的倒置块CIB。我们引入CIB作为紧凑的基本构建块。我们基于表5中的YOLOv10-S验证了其有效性。具体而言我们引入了倒置残差块[46]IRB作为基线如表8所示基线达到了次优的43.7% AP。然后我们在其后添加了一个3×3的深度卷积DW称为“IRB-DW”这带来了0.5%的AP提升。与“IRB-DW”相比我们的CIB通过在前面添加另一个DW开销最小进一步实现了0.3%的AP提升表明其优越性。排序引导的块设计。我们引入排序引导的块设计自适应地整合紧凑块设计以提高模型效率。我们基于表5中的YOLOv10-S验证了它的优势。根据固有排序按升序排序的阶段为阶段8-4-7-3-5-1-6-2如图3.(a)所示。正如表9所示当逐步用高效的CIB替换每个阶段的瓶颈块时我们观察到从阶段7开始的性能下降。在具有较低固有排序和更多冗余的阶段8和4中我们可以采用高效块设计而不影响性能。这些结果表明排序引导的块设计可以作为提高模型效率的有效策略。精度驱动模型设计的分析。我们展示了基于YOLOv10-S/M逐步整合精度驱动设计元素的结果。我们的基线是在整合了效率驱动设计后的YOLOv10-S/M模型表2中的#3/#7。如表10所示采用大核卷积和PSA模块分别为YOLOv10-S带来了0.4% AP和1.4% AP的显著性能提升而延迟增加分别只有0.03毫秒和0.15毫秒。注意对于YOLOv10-M没有采用大核卷积见表12。大核卷积。我们首先基于表10中的YOLOv10-S的#2研究了不同核大小的影响。如表11所示随着核大小的增加性能提高并在7×7核大小附近趋于平稳表明了大感受野的益处。此外在训练过程中移除重参数化分支会导致0.1%的AP下降显示了其在优化中的有效性。此外我们基于YOLOv10-N / S / M研究了大核卷积在不同模型规模上的效果。如表12所示对于大模型即YOLOv10-M没有带来改进这是由于其固有的广泛感受野。因此我们只在小模型即YOLOv10-N / S中采用大核卷积。部分自注意力PSA。我们引入PSA通过以最低成本结合全局建模能力来提高性能。我们首先基于表10中的YOLOv10-S的#3验证了其有效性。具体而言我们引入了变压器块即MHSA后接FFN作为基线称为“Trans.”。如表13所示与之相比PSA带来了0.3%的AP提升同时延迟减少了0.05毫秒。性能提升可能归因于在自注意力中通过减少注意力头的冗余缓解了优化问题[62, 9]。此外我们研究了不同NPSA的影响。如表13所示将NPSA增加到2可获得0.2%的AP提升但延迟增加了0.1毫秒。因此我们默认将NPSA设置为1以在保持高效率的同时增强模型能力。五、结论在本文中我们针对YOLOs的整个检测流程中的后处理和模型架构进行了研究。对于后处理我们提出了一致的双重分配用于无NMS训练实现了高效的端到端检测。对于模型架构我们引入了整体的效率-准确性驱动模型设计策略改善了性能-效率的权衡。这些改进带来了我们新的实时端到端目标检测器YOLOv10。大量实验表明YOLOv10在性能和延迟方面均达到了最先进的水平相比其他高级检测器充分展示了其优越性。温馨提示在末尾再给大家说一下YOLO系列目前发展的比较快大家可能会感到很迷茫不知道如何选择模型来作为改进的基准其实不管是最近新出的YOLOv9还是v10其实目前来看都不适用于改进v9的原因在v9的专栏已经介绍过了v10主要原因还是小作坊出的不算是正统像V5和V8其次就是论文还没有被收录目前来看V10的论文中我阅读过程中甚至能够发现到错误的地方所以如果你是短期内急着毕业那么V8和RT-DETR应该是目前最好的选择如果你还不急着产出一些成果那么V10和V9也是可以入手看一看的以上内容都是我个人见解仅供参考到此本文的正式分享内容就结束了在这里给大家推荐我的YOLOv10改进有效涨点专栏本专栏目前为新开的后期我会根据各种最新的前沿顶会进行论文复现也会对一些老的改进机制进行补充如果大家觉得本文帮助到你了订阅本专栏关注后续更多的更新~ 专栏目录YOLOv10改进有效专栏 | 持续复现前沿机制

查看全文

http://www.zqtcl.cn/news/499880/