当前位置：首页 > news >正文

凡人网站建设学校登陆网站制作

news 2025/11/14 14:22:50

凡人网站建设,学校登陆网站制作,怎样用文本建一个网站,计算机考试模拟网站怎么做DEYO#xff1a;DETR与YOLO用于端到端目标检测摘要 DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而#xff0c;由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外#xff0c;在训练的早期阶段匹配的不稳定性会… DEYODETR与YOLO用于端到端目标检测摘要 DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。为了解决这些问题我们设计了一种创新的培训方法称为逐步培训。具体来说在训练的第一阶段我们采用一个经典的检测器用一对多的匹配策略进行预训练以初始化端到端检测器的主干和颈部。在训练的第二阶段我们冻结了端到端检测器的主干和颈部需要从头开始训练解码器。通过逐步训练的应用我们引入了第一个利用纯卷积结构编码器的实时端到端对象检测模型DETR with YOLODEYO。在不依赖任何补充训练数据的情况下DEYO在速度和准确性方面都超过了所有现有的实时对象检测器。此外全面的DEYO系列可以使用单个8GB RTX 4060 GPU在COCO数据集上完成其第二阶段训练大大降低了训练支出。源代码和预训练模型可在https://github.com/ouyanghaodong/DEYO上获得。 1.介绍目标检测是计算机视觉领域的一项基本任务其任务是精确定位和识别图像或视频中的各种目标类别。这项技术是许多计算机视觉应用的基石包括自动驾驶、视频监控、面部识别和对象跟踪。近年来深度学习的进步特别是基于卷积神经网络CNN的方法[12]已经在对象检测任务中取得了突破性的进展成为该领域的主导技术。 DETRDetection Transformer[3]介绍了一种用于对象检测的端到端方法包括CNN骨干Transformer编码器和Transformer解码器。DETR采用匈牙利损失来预测一对一的对象集从而消除了对非最大抑制NMS的手动调整组件的依赖这通过端到端优化显着简化了对象检测管道。尽管基于TransformersDETR的端到端对象检测器在性能方面取得了显著的成功但这些检测器通常依赖于在ImageNet数据集上预训练其骨干网络。如果选择新的主干则需要在训练DETR或使用现有的预训练主干之前在ImageNet上进行预训练。这种依赖性限制了设计主干的灵活性并增加了开发成本当任务数据集与ImageNet显著偏离时这种预训练策略可能会导致特定数据集上DETR的次优微调结果。此外由于DETRs采用匈牙利匹配算法直接一对一的对象集预测其解码器的复杂性是二次的输入序列的长度在训练过程中接收直接监督信号的查询的数量基本上小于在经典的对象检测器使用一对多匹配策略。再加上图像分类任务的固有局限性这导致DETR的颈部没有得到充分的预训练。此外在DETR [3]训练的早期阶段同一个查询经常在同一个图像中的不同时间与不同的对象匹配导致优化过程既模糊又不稳定从而破坏了预先训练的骨干。为了应对上述挑战我们引入了一种创新的培训模式称为“分步培训”。这种方法从自定义数据集的预训练阶段开始利用经典检测器进行对象检测任务从而避免了对额外数据集的需求。随后在训练的第二阶段中采用在初始阶段期间通过一对多匹配细化的经典训练检测器的主干和颈部来初始化端到端检测器。在此阶段端到端检测器的主干和颈部组件被冻结允许从头开始对解码器进行专门的重新训练。与传统的DETR训练方法相比逐步训练方法在性能上有显着的提高。同时这种逐步训练大大降低了检测器的训练成本第一阶段的训练只需16GB的VRAM即可完成而第二阶段只需8GB的VRAM。利用逐步训练方法我们引入了第一个采用纯卷积架构作为编码器的实时端到端对象检测器名为DETR [3]与YOLO [23-25]DEYO。具体来说我们首先在自定义数据集上训练一个强大的YOLO对象检测模型以初始化DEYO的主干和颈部。随后我们将预训练的颈部与简单的特征投影相结合以构建DEYO的轻量级解码器。由于在初始阶段为DEYO的脊柱和颈部提供了高质量的预训练DEYO在速度和准确性方面超过了当代最先进的实时目标探测器。 DEYO-tiny在COCO [16] val 2017上实现了37.6%的AP并在NVIDIA Tesla T4 GPU上以497 FPS运行而DEYO-X则达到了53.7%的AP和65 FPS。此外通过放弃对NMS的依赖DEYO在CrowdHuman [27]数据集上展示了比YOLOv 8 [9]显着的性能增强。在没有额外训练数据的情况下DEYO在速度和精度方面优于所有可比较的实时检测器为实时目标检测建立了新的最先进技术。本文的主要工作如下 1.我们提出了第一种不需要额外数据集来训练DETR的训练方法逐步训练。与传统的DETR训练方法相比分步训练可以为探测器的颈部提供高质量的预训练并从根本上解决训练初期由于二进制匹配不稳定而对骨干造成的损伤从而显著提高探测器的性能。 2.使用逐步训练我们开发了第一个使用纯卷积结构作为编码器的实时端到端对象检测器DEYO它在速度和准确性方面都超过了当前最先进的实时检测器并且不需要后处理因此其推理速度无滞后且稳定。 3.我们进行了一系列的消融研究以分析我们提出的方法和模型的不同组成部分的有效性。 2.相关工作 2.1检测变换器DETR Carion等人提出了一种基于变换器的端到端对象检测器称为DETR检测变换器[3]由于其在对象检测中的端到端特性引起了研究人员的极大关注。具体而言DETR消除了传统检测管道中的锚和NMS组件采用二分图匹配标签分配方法直接预测一对一的对象集合。该策略极大地简化了目标检测过程消除了网络管理系统带来的性能瓶颈。然而DETR遭受缓慢的收敛速度和查询歧义问题。为了解决这些问题已经提出了DETR的几种变体例如Deformable-DETR [34]Conditional-DETR [22]Anchor-DETR [30]DABDETR [18]DN-DETR [14]和DINO [31]。DeformableDETR提高了注意力机制的效率并通过利用多尺度特征加速训练收敛。Conditional-DETR和Anchor-DETR降低了查询的优化难度。DAB-DETR引入了4D参考点并逐层优化预测框。DN-DETR通过引入查询去噪来加速训练收敛。DINO改进了以前的工作并取得了最先进的成果。然而上述改进没有解决DETR中的高计算成本的问题。RT-DETR [20]设计了一种高效的混合编码器来取代原始的Transformer编码器减少了DETR编码器中不必要的计算冗余并提出了第一个端到端对象检测器。 2.2.You Only Look OnceYOLO 多年来YOLO [23-25]系列一直是最好的单级实时物体探测器类别之一。YOLO将目标检测任务转化为回归问题在单次向前传递中预测多个目标的位置和类别实现高速目标检测。经过多年的发展YOLO已经发展成为一系列性能良好的快速机型。基于锚点的YOLO方法包括YOLOv 4 [1]、YOLOv 5 [8]和YOLOv 7 [28]而无锚点的方法是YOLOX [7]、YOLOv 6 [13]和YOLOv 8 [9]。考虑到这些检测器的性能无锚方法的性能与基于锚的方法一样好锚盒不再是限制YOLO发展的主要因素。然而所有YOLO变体都会生成许多冗余的边界框NMS必须在预测阶段过滤掉这些边界框这会显著影响检测器的准确性和速度并与实时对象检测器的设计理论相冲突。 3.DEYO 3.1.模型概述图2展示了我们的3.DEYO 3.1.模型概述图2展示了我们提出的DEYO的全面架构。DEYO采用YOLOv8 [9]作为其一对多分支其中YOLOv8包括一个主干一个特征金字塔网络FPN[17]和一个路径聚合网络PAN[19]它们共同形成了颈部结构此外还有一个能够在三个不同尺度上产生预测的头部。相反DEYO的一对一分支使用了一个轻量级的纯卷积编码器和一个基于变换器的解码器。此外我们还引入了与DINO [31]中使用的CDN组件相同的CDN组件以提高模型的精度。图2.我们消除了编码器的使用而是采用颈部提供的多尺度特征{P3P4P5}。在特征投影之后这些特征被用作编码器的输入同时生成候选边界框并通过查询选择器对其进行过滤。随后该信息被传递到具有辅助预测头的解码器中从而实现用于生成边界框和分数的迭代优化。 3.2.一对多分支 YOLO [23-25]模型的泛化能力和实用性在计算机视觉领域得到了广泛验证和广泛认可。即使没有额外的数据集的帮助YOLO在处理复杂场景执行多目标检测和适应实时应用方面也表现出卓越的性能。利用这些优势我们选择YOLO作为我们DEYO模型的一对多分支为DEYO提供高质量的、经过预先训练的骨干和颈部结构。该分支具有三个多尺度输出层能够生成多达8400个候选区域。与DETR模型所采用的一对一标签分配策略不同YOLO在训练过程中受益于一对多标签分配策略由于阳性样本的数量更高因此在初始训练阶段可以对网络进行更全面的监督。这些候选区域的任务不仅仅是分类;它们面临着更复杂的目标检测挑战。这进一步培养了一个强大的颈部结构为解码器提供丰富的多尺度信息从而显着提高模型的整体性能。 3.3.高效的编码器与使用Transformer作为编码器的DETR [3]相反DEYO利用了YOLOs Neck的纯卷积架构该架构在初始阶段进行了预训练以编码多尺度特征。然后这些编码的特征被馈送到特征投影模块中以将它们与隐藏的维度对齐。由于颈部的强大的多尺度特征提取能力在一开始就通过有效的预训练获得编码器可以为解码器提供高质量的键值和建议的边界框。与DETR的随机初始化多尺度层和Transformer编码器相比DEYO的纯卷积结构实现了显着的速度。这一进程可概述如下 3.4.查询生成如图3所示DEYO的查询生成方法与DETR的传统两阶段策略不同。具体来说DEYO采用了一种解耦的边界框和嵌入生成方法允许通过特征投影更有效地压缩颈部的多尺度信息。同时DEYO继承了一个一对多的分支预先训练的边界框头部将学习策略从密集过渡到稀疏而不是从头开始训练。图3.我们将边界框的生成与嵌入分离通过增强的特征投影可以更有效地压缩颈部发出的多尺度信息。 3.5.一对一分支如图所示DEYO的一对一分支采用类似于DINO的架构利用Transformer的自我注意机制来捕获查询间的关系从而建立抑制冗余边界框的分数差异。在Transformer解码器的每一层中查询被逐步细化最终得到与对象一一对应的预测。这种设计大大简化了DEYO中的对象检测过程消除了对非最大抑制NMS的依赖确保了一致的推理速度。在DEYO训练的第二阶段我们冻结了DEYO的骨干和颈部以从根本上规避训练初始阶段的二分匹配不稳定性否则可能会对预训练的骨干造成不良影响。受益于第一阶段提供的高质量初始化DEYO实现了快速收敛和卓越的性能即使在一对一分支中只监督几百个查询并从头开始训练。 4.实验 4.1.设置 COCO为了评估我们的方法在对象检测任务中的性能我们在广泛使用的Microsoft COCO上进行了实验[16]。我们使用train 2017训练DEYO并使用val 2017评估性能。 CrowdHuman为了评估与经典检测器相比DEYO在密集检测中的端到端有效性我们在CrowdHuman上进行了实验[27]。我们利用了数据集中可用的全面全身注释并对验证集进行了评估。在优化器相关参数方面我们采用了与COCO相同的设置。所有实验后处理参考Iter-DeformableDETR [33]的论文未作任何修改。 Implementation Details在训练的第一阶段我们从头开始遵循[9]训练的策略和超参数。在训练的第二阶段我们使用了6层Transformer解码器作为DEYO的解码器。我们按照[9]超参数训练了检测器但我们使用了AdamW [11]优化器。学习率设置为0.0001权重衰减设置为0.0001。第二阶段的数据增强策略与第一阶段的训练相同包括随机颜色失真、逆平移、翻转、拼接、马赛克等操作。在COCO [16]数据集上除了DEYO-tiny使用100个查询其他尺度的DEYO使用300个查询。所有评估均使用Tesla T4 GPU进行并辅以8 vCPU Intel Xeon处理器SkylakeIBRS。实验使用PyTorch版本1.9.0与TensorRT 8.6.1集成。 4.2.主要结果我们在表1中比较了缩放的DEYO与YOLOv 5 [8]、YOLOv 8 [9]和RT-DETR [21]。与YOLOv 8相比DEYO在N、S和M尺度下的准确度显著提高了2.4 AP / 0.9 AP/ 0.5 AP同时FPS提高了143% / 110% / 32%。在尺度L和XDEYO继续表现出更好的准确性和速度之间的权衡。如表3所示DEYO在密集场景中表现出色具有实时速度。具体来说DEYO-X已经达到了令人印象深刻的92.3 AP和43.3 mMR在CrowdHuman中的召回率为97.3。表1.主要结果。实时检测器和我们的DEYO使用一致的输入大小640而端到端检测器使用输入大小8001333。根据RT-DETR中提出的方法在T4 GPU上使用TensorRT FP 16报告了端到端速度结果。我们不测试DETR的速度因为它们不是真实的时间探测器。表3.比较YOLOv8和DEYO在CrowdHuman全身上的性能。由于DEYO放弃了对NMS的依赖性能得到了显著提高。 4.3.消融研究表5列出了在CrowdHuman [27]数据集上使用三种不同训练方法的YOLO [23-25]和DEYO模型的训练结果YOLO方法、DETR方法和分步训练策略。研究结果表明YOLOv 8 N [9]模型可以实现82.6的平均精度AP即使在不依赖补充数据集的情况下从头开始训练也可以利用一对多训练策略提供的丰富监督信息。相比之下DEYO-N模型受到一对一匹配训练策略的约束提供有限的监督信号尽管经历了与YOLO对应模型相同的迭代次数但其性能上限为72.1AP。此外当DEYO-N模型的主干使用YOLOv 8-N-CLS初始化从ImageNet [5]预训练并结合DETR训练策略时DEYO-N的性能达到78.3AP。值得注意的是实施分步培训显著提高了DEYO-N的绩效提高了4.7AP。表5.比较在CrowdHuman数据集上训练的不同方法应该注意的是在这个实验中我们使用YOLOv8提供的工具计算了AP50指标。在表7中我们检查了Neck组件提供的高质量多尺度特征的重要性这些特征在DEYO模型的第一阶段进行了预训练。该模型的性能显着下降了18.8平均精度点仅达到68.3平均精度当单独使用预先训练的骨干而没有预先训练的颈部逐步训练。这些发现清楚地表明DEYO模型上级性能的关键不在于使用ImageNet之外的更复杂的预训练骨干而在于第一阶段预训练的Neck它用高质量的多尺度特征来描述模型。表7.逐步训练的消融研究结果。CrowdHuman 在表8中我们分析了通过在训练的第二阶段期间冻结DEYO的主干和颈部从根本上解决早期二分图匹配的不稳定性而产生的增强这积极地改善了早期二分图匹配的稳定性。这积极地影响了网络性能。与在整个第二阶段微调骨干和颈部相比冻结的行为使DEYO的性能提高了1.1 AP。此外由于DEYO的第一阶段涉及对COCO [16]数据集进行对象检测任务的预训练因此它允许在训练的第二阶段实施更强大的数据增强策略。因此与DETR不同采用Mosaic数据增强不会导致性能下降;相反它有助于0.2 AP的改进。表8.探索冻结操作和镶嵌数据增强的影响。 4.4.分析表6中给出的实验结果阐明了当不采用逐步训练策略时DINO[31]H-DETR[10]和Group-DETR[4]的性能明显下降与我们的方法形成鲜明对比。与我们的方法相比参考文献[41031]中提出的方法未能有效地应对由于缺乏监督信号而引发的培训挑战同时最终导致培训支出膨胀。相反如表9所示我们的训练方案不仅避免了额外的训练开销而且还大大减少了检测器的训练费用Group-DETR所需的3300个查询可能会使训练持续时间增加六倍。DEYO模型训练的初始阶段只需要16 GB的VRAM而随后的阶段需要更少8 GB的VRAM。对于培训资源受限的场景DEYO可以停用CDN功能以进一步降低VRAM要求。如表6所示渐进式培训策略在第一阶段为DEYO提供了高质量的预培训基础确保即使CDN停用性能改进仍然是可管理的。表6.DEYO-N 12-Epoch训练设置下不同方法的比较。与我们的方法相比以前的方法不能有效地解决监督信号不足所带来的培训挑战这也导致了额外的培训成本。表9.YOLO和DEYO的详细配置以及GPU内存使用情况。如图6所示在X尺度上与RT-DETR-X相比DEYO表现出一些差异RT-DETR-X利用ImageNet [5]进行预训练。然而这种差距可以归因于RT-DETR [21]并入了更有效的骨架。此外我们认为COCO [16]数据集上的性能并不能完全概括检测器的优点和缺点。考虑到DEYO不需要额外的训练数据它可以利用更强大的数据增强策略并降低训练成本。因此DEYO在应用于自定义数据集时具有独特的优势。在不改变YOLO原有骨架和颈部的情况下[23-25]DEYO毫不费力地实现了最先进的SOTA性能展示了DEYO模型设计理念的即插即用特性。然而我们观察到YOLOv 8 [9]的颈部和模型缩放策略与DEYO不完全一致。随着模型大小的增加DEYO的性能增益逐渐减少。我们假设其中一个原因是YOLOv 8颈部的输出尺寸和DEYO解码器的隐藏尺寸之间的不匹配。这种差异凸显了DEYO模型尚未开发的潜力。我们相信专为DEYO量身定制的骨干、颈部和模型扩展策略以及逐步训练可以将DEYO的性能提升到前所未有的水平。图6.对DEYO和RT-DETR的综合比较表明尽管在更大范围内存在特定差距但DEYO不依赖额外的训练数据并且大幅降低了训练成本。我们相信DEYO在定制数据集方面具有独特的优势。 5.结论在本文中我们创新性地开发了一种训练策略不仅避免了对额外数据集的需求而且成功地解决了以前的方法无法克服的问题由于多尺度特征层训练不足而导致的性能下降。这种方法不仅提高了模型性能还显著降低了训练成本。通过将我们精心设计的轻量级编码器与这一革命性策略相结合我们推出了DEYO它超越了所有现有的实时对象检测器而无需依赖补充数据集。我们认为DEYO是经典检测器和基于查询的检测器之间融合的一个具体实例。我们相信还有其他方法可以满足更高的精度要求。然而DEYO的创新探测器设计带来了新的挑战例如需要重新设计主干和颈部以充分发挥DEYO的潜力。我们预计未来的研究将为这些挑战提供有效的解决方案。

查看全文

http://www.zqtcl.cn/news/660330/