素材网站 模板,网页设计实训报告范例,郑州网络推广哪家口碑好,dede 网站入侵论文#xff1a;https://arxiv.org/abs/2401.17270 code: https://github.com/AILab-CVC/YOLO-World 1、为什么要做这个研究#xff08;理论走向和目前缺陷#xff09; ? 之前的开集检测器大多比较慢#xff0c;不利于部署。 2、他们怎么做这个研究 #xff08;方法…论文https://arxiv.org/abs/2401.17270 code: https://github.com/AILab-CVC/YOLO-World 1、为什么要做这个研究理论走向和目前缺陷 ? 之前的开集检测器大多比较慢不利于部署。 2、他们怎么做这个研究 方法尤其是与之前不同之处 ? 结合CLIP和yolov8CLIP提取文本特征yolov8提取图像特征核心是如何将文本特征和图像特征融合这个特征融合模块要非常简单最好融合一次就行不用多多阶段融合这样部署的时候就可以直接用CLIP离线编码好的文本特征而不用再实时推理了节约了大量的计算量并且非常简单。 3、发现了什么总结结果补充和理论的关系? 提出YOLO-World, 快且实时在V100上可以打到50FPS 实际使用下来发现还是比Grounding DINO效果要差一些。
摘要 YOLO系列的检测器在工业界是非常实用的但是它们有个非常大的问题就是只能检测预定义的类别。本文提出的方法可以通过视觉语言模型在大规模数据集上训练实现了检测任意类别的目的。在LVIS数据集上AP35.4, V100上52FPS。 1 引言 现有的做开集检测的视觉语言模型BERT, OV-COCO计算量都太大了而且部署不友好。已经有一些论文证明了预训练的大模型效果非常好但是用预训练的小模型做开集检测的能力仍有待探索。 Yolo-world 的yolov8的检测架构结合预训练clip文本编码器来编码输入的文本并用作者设计的重参数化视觉鱼眼数据聚合网络来融合文本和图像特征。在推理阶段文本编码器可以直接拿掉只用文本embeddings来作为输入就行。 之前的开集检测方法都需要在线编码文本以获取需要检测的类别而yolo-world只需要离线编码一次就行了后面推理阶段直接用离线编码的文本就行对部署非常友好。 2 相关研究 传统目标检测 开集目标检测OVD OWL-ViTs, GLIP, Grounding DINO. ZSD-YOLO 3 方法 3.1 预训练方法区域文本对 传统检测方法的实例标注是类别区域对类别对应的是类别ID本文方法使用的是文本类别对文本可以类别名、短语或一句话。YOLO-World已图像和一系列文本作为输入输出的是框和对应的目标的嵌入特征。 3.2 模型架构
检测器yolov8 文本编码器CLIP 文本对比头文本特征和图像框特征计算余弦相似度 在线训练马赛克增强 离线推理输入自定义离线文本特征 3.3 文本图像特征融合模块
文本引导的 CSPLayer: 类似与fpn结构的图像文本特征融合层 文本引导。 Image-Pooling Attention: 3.4 预训练方法 图像文本对伪标注1先用n-gram方法从文本中提取名词短语。2将名词短语输入GLIP获取生成标注框这样就可以提供粗糙的文本检测框对。3用CLIP来评估名词短语和对应检测框的相关性剔除相关性比较低的文本检测框对。如此便可以制作出大规模的用于训练的数据集CC3M 246K帧了。 4 实验 4.1实现细节 4.2 预训练 实验设置预训练阶段文本编码器参数冻结 预训练数据
零样本评估预训练数据中没有LVIS 在LVIS进行评估
4.3 消融实验 预训练数据数据越多越好
文本图像特征融合模块RepVL-PAN:
文本编码器比较了BERT和CLIP这两种文本编码器CLIP比bert好很多。且CLIP如果微调的话效果会变差因为CLIP本来训练用的数据已经就足够丰富了。
4.4 在COCO和LVIS上微调YOLO-World 实验建立 CLIP也进行了微调学习率0.01 COCO目标检测微调时移除了RepVL-PAN以加速训练。
LVIS目标检测
4.5 开集实例分割 需要有实例集的分割标注 只微调分割头的话会有更好的开集分割能力泛化能力。 [图片]
5结论 提出了YOLO-World,开集实时目标检测器设计了文本和图像特征融合模块支持离线部署。