烟台html5网站建设,国内网站怎么做有效果,域名购买,建立企业网站几天You Only Look at Once for Real-Time and Generic Multi-Task
论文链接#xff1a;http://arxiv.org/abs/2310.01641
代码链接#xff1a;https://github.com/JiayuanWang-JW/YOLOv8-multi-task
一、摘要 高精度、轻量级和实时响应性是实现自动驾驶的三个基本要求。本研究…You Only Look at Once for Real-Time and Generic Multi-Task
论文链接http://arxiv.org/abs/2310.01641
代码链接https://github.com/JiayuanWang-JW/YOLOv8-multi-task
一、摘要 高精度、轻量级和实时响应性是实现自动驾驶的三个基本要求。本研究引入了A-YOLOM这是一个自适应、实时且轻量级的多任务模型旨在同时解决目标检测、可行驶区域分割和车道线分割任务。具体来说作者开发了一个端到端的多任务模型具有统一和简化的分割结构。引入了一个可学习的参数该参数在分割任务中自适应地连接neck和骨干之间的特征对所有分割任务使用相同的损失函数。这消除了定制化的需求并增强了模型的一般化能力。还引入了一个仅由一系列卷积层组成的分割头这减少了参数数量和推理时间。 在BDD100k数据集上取得了具有竞争力的结果尤其是在可视化结果方面。性能结果显示目标检测的mAP50为81.1%可行驶区域分割的mIoU为91.0%车道线分割的IoU为28.8%。此外还引入了真实场景来评估我们的模型在实际场景中的性能这显著优于竞争对手。这表明所提模型不仅表现出具有竞争力的性能而且比现有的多任务模型更加灵活和快速。
二、创新点 与为每个任务使用单独的模型相比将三个不同的颈部和头部集成到一个具有共享骨干网络的统一模型中可以显著节省计算资源并减少推理时间。 开发了一个轻量级模型能够将三个任务集成到一个模型中。这对于需要实时处理的多任务特别有益从而增强了模型在边缘设备上的部署能力。 设计了一种针对分割架构neck区域的自适应拼接模块。该模块可以自适应地拼接特征无需手动设计并实现与精心设计的模块相似或更好的性能从而进一步增强模型的一般性。 设计了一个轻量级、简单且通用的分割头。采用统一的损失函数来处理同类型的任务头这意味着不需要为特定任务进行定制设计。它仅由一系列卷积层构建而成。 实验表明该模型在推理时间和可视化方面可以优于现有工作。此外还进一步使用真实道路数据集进行了实验这也证明了该模型在性能上显著优于最先进的方法。 目录 You Only Look at Once for Real-Time and Generic Multi-Task一、摘要二、创新点三、原理A. EncoderB. DecoderC. Loss FunctionD. Training Paradigm 四、实验A. Experiment DetailsB. Experimental resultsC. Ablation StudiesD. Real roads experiments 五、总结 三、原理 自动驾驶中的分割任务 可行驶区域通常覆盖图像的大部分区域但区域数量很少。如图 1所示只有三个可行驶区域。车道线则相反一个图像中有许多车道线但每条线都很小、细长且狭窄。 所提模型包括三个主要组件骨干网络、neck和head。此外还包括了损失函数。如图 2所示。A-YOLOM模型是一个单阶段网络具有简单的编码器-解码器架构。编码器包括骨干网络和neck而解码器由head组成。值得注意的是总共有三个neck一个用于目标检测的检测neck和两个分割neck一个用于可行驶区域分割另一个用于车道线分割。该模型具有自适应、简单和高效的结构这不仅扩大了其应用范围还确保了实时推理。
A. Encoder 本文将一个共享骨干网络和三个neck网络整合成一个单一模型以完成三个不同的任务。 1Backbone主干网络由一系列卷积层组成用于从输入数据中提取特征。由于YOLOv8在检测任务中表现出色主干网络遵循YOLOv8。具体来说他们对CSPDarknet53进行了优化 [27]它作为YOLOv5的主干。与CSP-Darknet53相比这个主干网络的关键区别在于用c2f模块替换了c3模块。c2f模块将高级特征与上下文信息相结合进一步提升了性能。还有一些细微的差异例如用 3 × 3 3 \times 3 3×3卷积代替了最初的 6 × 6 6 \times 6 6×6卷积以及移除了第10层和第14层的卷积层。这些改进使得主干网络在YOLO系列的前辈中更加有效。 (2) Neck:neck负责融合从主干网络提取的特征。在主干网络之后使用空间金字塔池化融合SPPF模块来增加感受野并降低与SPP相比的计算需求。这些特征随后被导向到各个neck。 所提模型使用了三个neck一个用于目标检测任务两个用于分割任务分别是可行驶区域和车道线。值得注意的是在图2中由于有两个分割任务左侧的分割颈部中的N值等于2。这意味着为不同的分割任务有两个相同的分割颈部。来自不同neck底层的天蓝色和棕色线条分别导向到独立的分割头部。 检测neck采用了路径聚合网络PAN[28]结构该结构包括自上而下和自下而上的两个特征金字塔网络FPN [29]。这种结构将低级细节与高级语义特征合并丰富了整体特征表征。这对于目标检测至关重要因为小物体依赖于低级特征而较大的实体则受益于高级特征提供的更广泛上下文。在检测任务中通常存在不同尺度的物体。物体尺寸的多样性是选择PAN结构作为检测neck的主要原因。 分割neck采用了FPN结构该结构因其有效处理多尺度物体而闻名。此外在颈部和主干网络之间引入了一个自适应拼接模块。如图1所示输入包括两个特征图一个来自前一层的neck另一个来自相同分辨率的骨干网络。该模块的核心是一个可学习的参数旨在控制骨干特征的重叠从而允许模型结构根据不同的分割任务进行自适应调整。该模块在每个分辨率级别上运行。这一添加增强了模型的一般性使其易于应用于不同的分割任务而无需定制。
B. Decoder 解码器处理从neck来的特征图以对每个任务进行预测。这包括预测对象类别、相应的边界框以及特定分割对象的掩码。该工作采用了两个不同的头部:检测头部和分割头部。
检测头部采用了一种解耦的方法遵循YOLOv8检测头部使用卷积层将高维特征转换为类别预测和边界框而不包含物体分支。这是一个无锚点检测器。其结构如图2中的检测模块所示。请注意检测头部的输出在训练、验证和预测模式中各不相同。在验证和预测模式下使用三种不同的分辨率作为输入输出一个张量包含类别预测及其相应的边界框。在训练模式下检测头部循环对每个输入应用卷积层总共输出三个张量。每个张量包含特定于其分辨率的类别预测和边界框。随后这些结果用于计算损失函数。
分割头部在不同分割任务中是相同的。其结构如图2中的分割模块所示。具体来说它由一系列卷积层组成用于提取上下文信息以及一个反卷积层用于将分辨率恢复到原始图像大小。最终获得一个与原始图像大小匹配的像素级二值掩码。0代表背景1代表对象。算法2说明了分割头部的处理过程。此外分割头部简洁的架构仅包含7,940个参数显著增强了模型的部署能力。
C. Loss Function 采用端到端训练方法并使用多任务损失函数。具体来说损失函数包含三个部分一个检测和两个分割。公式如下所示 L L d e t L s e g d a L s e g l l ( 1 ) L L_{det} L_{segda} L_{segll} \ (1) LLdetLsegdaLsegll (1) 其中 L d e t L_{det} Ldet 为目标检测任务 L s e g d a L_{segda} Lsegda 为可行驶区域分割任务 L s e g l l L_{segll} Lsegll 为车道线分割任务。 对于检测任务损失函数分为两个主要分支分类分支和边界框分支。分类分支包括二元交叉熵损失记为 L B C E L_{BCE} LBCE。边界框分支包括分布焦点损失DFL [30]记为 L D F L L_{DFL} LDFL 和完整IoUCIoU损失 [31]表示为 L C I o U L_{CIoU} LCIoU。因此检测损失 L d e c L_{dec} Ldec 可以表示为 L d e t λ B C E L B C E λ D F L L D F L λ C I o U L C I o U ( 2 ) L_{det} \lambda_{BCE}L_{BCE} \lambda_{DFL}L_{DFL} \lambda_{CIoU}L_{CIoU} \ (2) LdetλBCELBCEλDFLLDFLλCIoULCIoU (2)
其中 λ B C E \lambda_BCE λBCE、 λ D F L \lambda_DFL λDFL 和 λ C I o U \lambda_CIoU λCIoU 是相应的系数。 L B C E − [ y n l o g x n ( 1 − y n ) l o g ( 1 − x n ) ] ( 3 ) L_{BCE} − [y_{n} log x_{n} (1 − y_{n}) log (1 − x_{n})] \ (3) LBCE−[ynlogxn(1−yn)log(1−xn)] (3) 其中 x n x_{n} xn 是每个对象的预测分类。 y n y_{n} yn 是每个对象的真实值ground truth。 L B C E L_{BCE} LBCE 衡量预测值与真实值之间的分类误差。 L D F L ( S i , S i 1 ) − ( ( y i 1 − y ) l o g ( S i ) ( y − y i ) l o g ( S i 1 ) ) , S i y i 1 − y y i 1 − y i , S i 1 y i − y y i − y i 1 ( 4 ) L_{DFL} (S_{i}, S_{i1}) − ((y_{i1}− y) log (S_{i}) (y − y_{i}) log (S_{i1})), \\ S_{i} \frac{y_{i1} − y}{y_{i1} − y_{i}}, S_{i1} \frac{y_{i} − y}{y_{i} − y_{i1}} \ (4) LDFL(Si,Si1)−((yi1−y)log(Si)(y−yi)log(Si1)),Siyi1−yiyi1−y,Si1yi−yi1yi−y (4) 其中 y y y 是边界框坐标的真实值它是一个小数。 y i 1 y_{i1} yi1 是真实值 y y y 的向上取整。 y i y_{i} yi 是真实值 y y y 的向下取整。 L D F L L_{DFL} LDFL 衡量预测值和真实值特征位置之间的位移以使预测的边界框接近实际值。 L C I o U 1 − C I o U C I o U I o U − ρ 2 ( b , b g t ) c 2 − α v v 4 p i 2 ( a r c t a n w g t h g t − a r c t a n w h ) 2 ( 5 ) α v ( 1 − I o U ) v L_{CIoU} 1 − CIoU \\ CIoU IoU −\frac{ρ^{2} (b, b^{gt})}{c^{2} − \alpha v} \\ v \frac{4}{pi^{2}}(arctan \frac{w^{gt}}{h^{gt}} − arctan\frac{w}{h})^{2} \ (5) \\ \alpha \frac{v}{(1- IoU) v} LCIoU1−CIoUCIoUIoU−c2−αvρ2(b,bgt)vpi24(arctanhgtwgt−arctanhw)2 (5)α(1−IoU)vv 其中 b b b 是预测框的中心点 b g t b^{gt} bgt 是真实值框的中心点。 ρ ρ ρ是预测点和真实值点之间的欧几里得距离。 c c c 是两个框的最小外接矩形的对角线长度。 v v v 和 α \alpha α 都是用于控制比例的系数。 h h h 是预测框的宽度和高度 w g t w^{gt} wgt 和 h g t h^{gt} hgt 是真实值框的宽度和高度。 L C I o U L_{CIoU} LCIoU 集成了重叠、距离和宽高比一致性的方面以衡量预测框和真实值框之间的差异。因此它使模型能够更精确地定位物体的形状、大小和方向。 对于分割任务使用相同的损失函数。这意味着 L s e g d a L_{segda} Lsegda 与 L s e g l l L_{segll} Lsegll 具有相同的公式。将统称为 L s e g L_{seg} Lseg。公式如下所示 L s e g λ F L L F L λ T L L T L ( 6 ) L_{seg} \lambda_{FL}L_{FL} \lambda_{TL}L_{TL} \ (6) LsegλFLLFLλTLLTL (6) 其中 L F L L_{FL} LFL 和 L T L L_{TL} LTL 分别是焦点损失focal loss[24]和 Tversky 损失Tversky loss [32]。两者都是分割任务中广泛使用的损失函数。 λ F L \lambda_{FL} λFL 和 λ T L \lambda_{TL} λTL 是相应的系数。 L F L − α t ( 1 − p t ) γ l o g ( p t ) ( 7 ) L_{FL} −\alpha_{t} (1 − p_{t})^{\gamma} log (p_{t}) \ (7) LFL−αt(1−pt)γlog(pt) (7) 其中 p t p_{t} pt 是模型预测正类概率。 y y y是每个像素的真实值。 α t \alpha_{t} αt 是一个平衡正/负样本重要性的加权因子。 γ \gamma γ是一个调节每个样本对损失贡献的聚焦参数。焦点损失提供了一个鲁棒的解决方案来处理不平衡样本确保模型不会过度偏向于主导的、易于学习的类别。相反它更注重挑战性和代表性不足的区域。 L T L 1 − T P T P α F N β F P ( 8 ) L_{TL} 1 − \frac{TP}{TP \alpha FN \beta FP} \ (8) LTL1−TPαFNβFPTP (8) Tversky 损失是 Dice 损失的扩展引入了两个额外的参数 α \alpha α 和 β \beta β以分配不同的权重给假阳性和假阴性从而增强了其处理不平衡任务的能力。
D. Training Paradigm 训练范式与在全景自动驾驶任务中普遍存在的多任务学习方法不同。采用端到端训练模式每个批次仅进行一次反向传播。这意味着整个网络是集体优化的没有冻结特定层或交替优化从而减少了训练时间。算法3说明了逐步训练过程。在每个轮次中通过单次正向传播获得所需的预测结果列表 KaTeX parse error: Expected group after _ at position 5: \hat_̲{y}包括检测边界框、分类信息和分割掩码等信息。随后计算每个任务的损失并将其汇总为单个损失 L L L。然后仅进行一次反向传播以优化所有任务中的模型。完成一轮训练后对模型进行评估。如果与上次50轮相比性能没有改进则提前终止训练。否则训练将在训练300轮后停止。 四、实验 本章评估模 型在BDD100K数 据 集 上 的 性 能 和 推 理 时 间 并 将 其与多任务自动驾驶全景感知中使用的经典方法进行了比较。此外还进行了广泛的消融研究并提供了实验结果的分析。
A. Experiment Details Dataset: BDD100K数据集是自动驾驶研究中的一个重要资源包括10万个样本和多任务标注。除了数量上的优势该数据集的重要性还体现在其多方面特性涵盖了不同的地理环境、环境背景和天气条件。这些优势确保了在BDD100K上训练的模型具有鲁棒性和通用性使其成为研究的一个理想选择。该数据集分为三个部分一个包含70k图像的训练集一个包含10k图像的验证集以及一个包含20k图像的测试集。由于测试集的标签不公开我们在验证集上评估所提模型。与YOLOP类似检测任务仅关注“车辆”检测包括汽车、公交车、卡车和火车等类别。 Evaluation Metrics: 使用召回率和mAP50作为目标检测任务的评估指标。这两个指标在检测任务中 得到了广泛的认可和接受。召回率表示模型准确检测指定类别中所有对象实例的能力。mAP50是通过在IoU阈值为0.5时计算所有类别的平均平均精度得到的。平均精度AP量化了精度-召回曲线下的面积。对于分割任务类似于YOLOP [16]使用mIoU来评估可行驶区域分割任务。对于车道线分割任务采用准确率和IoU作为评估指标。然而由于车道线分割中背景和前景像素数量的不平衡采用一个更有意义的平衡准确率指标进行评估。传统的准确率会通过偏好样本数量较多的类别来扭曲结果。相比之下平衡准确率通过考虑每个类别的准确率提 供了一个更公平的指标。公式如下 L i n e A c c u r a c y S e n s i t i v i t y S p e c i f i c i t y 2 ( 9 ) Line Accuracy \frac{Sensitivity Specificity}{2} \ (9) LineAccuracy2SensitivitySpecificity (9)
其中 S e n s i t i v i t y T P T P F N Sensitivity \frac{T P}{T P F N} SensitivityTPFNTP和 S p e c i f i c i t y T N T N F P Specificity \frac{T N}{T N F P} SpecificityTNFPTN. 还比较了所提模型与其他方法的FPS。所有评估实验均在GTX 1080 Ti GPU上执行。
3Experimental Setup and Implementation: 比较了所提模型与几个突出的多任务模型。由于多任务模型的稀缺性还包括了几个出色的单任务或双任务模型进行比较。YOLOP和HybridNet代表了在BDD100K数据集上泛在自动驾驶领域的最先进技术和开源的多任务模型。Faster R-CNN和YOLOv8分别 是 两 阶 段 和 单 阶 段 目 标 检 测 网 络 的 典 型 代 表。MultiNet和DLT-Net能够解决多个泛在驾驶感知任务它们在BDD100k数据集上的目标检测和可行驶区域分割中表现出良好的性能。PSPNet [33]由于其聚合全局信息的能力在语义分割任务中表现出色。鉴于BDD100K数据集中缺乏处理车道线分割的适当多任务网络将所提模型与Enet [34]、SCNN和EnetSAD [35]进行比较它们是三个领先的车道检测网络。 为了提高性能采用了几种数据增强技术。具体来说采用了masic增强这有助于防止过拟合并增强训练数据。此外为了解决光度失真修改了图像的色调、饱和度和值参数。还结合了基本的增强技术来处理几何失真如随机平移、缩放和水平翻转。 使用SGD优化器以0.01的 学 习 率 lr、0.937的动量和0.0005的权重衰减来训练所提模型。最初该模型进行3轮预热训练。在这个预热阶段SGD优化器的动量设置为0.8偏置学习率设置为0.1。训练过程采用线性学习率退火策略。这种策略有助于确保模型在训练的早期阶段快速学习并在后期阶段更稳定地收敛。此外将原始图像尺寸从 1280 × 720 1280 × 720 1280×720调整为 640 × 640 640 × 640 640×640。对于损失函数系数设置 λ F L 24.0 \lambda_{FL} 24.0 λFL24.0 λ T L 8.0 \lambda_{TL} 8.0 λTL8.0 λ D F L 1.5 \lambda_{DFL} 1.5 λDFL1.5 λ C I o U 7.5 \lambda_{CIoU} 7.5 λCIoU7.5 λ B C E 0.5 \lambda_{BCE} 0.5 λBCE0.5。在 L T L L_{TL} LTL中采用 α 0.7 \alpha 0.7 α0.7和 β 0.3 \beta 0.3 β0.3在 L F L L_{FL} LFL中采用 α t 0.25 \alpha_{t} 0.25 αt0.25和 γ 2 \gamma 2 γ2。最后在三个RTX 4090上以120个批次的规模训练300轮。对于评估将置信度阈值设置为0.001将非极大值抑制NMS阈值设置为0.6。对于预测置信度阈值设置为0.25NMS阈值设置为0.45。遵循YOLOP的置信度阈值和NMS设置。因此可视化可能略微不同于定量结果。
B. Experimental results 本节将端到端地训练所提模型并将其性能与其他先进方法进行比较。 1推理时间在深度学习应用中推理时间是主要挑战之一。特别是在自动驾驶任务中需要在边缘设备上部署模型而这些设备通常计算资源有限。因此确保模型既轻量又实时变得至关重要。表I重现并测试了YOLOP1HybridNet2、YOLOv8和所提模型的FPS所有FPS测试都是在GTX 1080 Ti GPU上进行的批大小为1和32。FPS的计算方法遵循HybridNet。此外还提供了每个模型的参数数量作为评估结果之一。 深度学习应用的主要挑战之一是推理时间。尤其是在自动驾驶任务中需要在边缘设备上部署模型这些设备通常具有有限的计算资源。因此确保模型的轻量化和实时性至关重要。 表I对YOLOP、HybridNet、YOLOv8以及所提模型进行了FPS的重现和测试所有FPS测试均在GTX 1080 Ti GPU上进行批大小为1和32。FPS的计算方法遵循HybridNet。此外还提供了每个模型的参数数量作为评估结果之一。 A-YOLOM(n)和A-YOLOM(s)之间的主要区别在于骨干网络的复杂度。A-YOLOM(n)是设计的一个轻量级骨干网络具有降低的复杂度非常适合部署在边缘设备上。A-YOLOM(s)的骨干网络更复杂提供了更强大的性能但同时也增加了时间开销尤其是在 b s 32 bs32 bs32的场景中。与其他SOTA的多任务模型和单任务模型相比A-YOLOM(n)以其轻量级和更高的效率脱颖而出。具体来说与YOLOP相比A-YOLOM(n)具有显著更少的参数和更高的FPS。它在 b s 1 bs1 bs1时实现了1.53倍的速度提升在 b s 32 bs32 bs32时实现了1.28倍的速度提升。这表明所提模型更高效。与HybridNet相比A-YOLOM(n)在参数和速度上都有显著优势。尽管A-YOLOM(s)的参数比HybridNet多但它运行速度更快。HybridNet在 b s 1 bs1 bs1和 b s 32 bs32 bs32的情况下都无法满足实时性能的要求。 HybridNet推理时间更长是因为它是一个基于锚点的方法。生成大量的锚框会增加计算开销从而降低推理的整体速度。在这种情况下不会在下一节将其性能与所提模型进行比较。YOLOv8是一个单任务模型意味着它只能在一个模型中实现一个任务。作者列出了两个版本YOLOv8n(det)和YOLOv8n(seg)。尽管它们都比其他模型包括所提模型运行得更快但它们需要在边缘设备上部署三个单独的模型这意味着将一个检测模型和两个分割模型组合到一个边缘设备上总共需要9.68M个参数。这比A-YOLOM(n)多出2.18倍给边缘设备带来了巨大的压力。此外YOLOv8在三个任务上的性能远低于所提模型。 2这部分展示了多任务实验的结果包括目标检测、可行驶区域分割和车道线分割。 检测任务遵循YOLOP的设置将汽车、公交车、卡车和火车合并为“车辆”分类。比较结果如表 II所示。根据定量结果我们的模型在mAP50方面均取得了最佳性能。这表明所提模型在预测检测目标方面的准确性非常出色。特别是与MultiNet和FasterR-CNN相比。 此 外A-YOLOM(n)在主干网络、 检测neck和head复杂度方面与YOLOv8n(det)相当。然而A-YOLOM(n)在 召 回 率 和mAP50方 面 都 显 著 优于YOLOv8n(det)。这表明在多任务学习中各种任务可以隐式地辅助并进一步提高单个任务的性能。另一方面YOLOv8n(det)优于YOLOv5s因为’s’尺度模型通常具有更复杂的骨干网络以增强性能。所提模型的一个问题是召回率不令人满意。YOLOP和DLT-Net的召回率比所提模型更好。由于 L d e t L_{det} Ldet中边界框损失的权重较高。这意味着所提模型更加保守以牺牲召回率性能为代价专注于实现更高的mAP。相信mAP50更好地反映了检测任务的综合性能。此外所提模型实现了实时性能。 对于可驾驶区域分割任务表III提供了定量结果。所提模型在mIoU方面取得了第二和第三好的性能。YOLOP的表现优于所提模型因为它们为分割任务定制了损失函数。在mIoU方面A-YOLOM(n)和AYOLOM(s)分 别 落 后YOLOP 1%和0.5%。 虽 然该模 型 可 能在 性 能 上 略 有 牺 牲 但 它 更 加 灵 活 且 更 快。 此外 该模 型 在 性 能 上 远 优 于 其 他 模 型 例如YOLOv8n(seg)、MultiNet和PSPNet。值得注意的是虽然YOLOv8n(seg)比所提模型更快但其部署成本更高且其性能显著低于所提模型。 对于可驾驶区域分割任务 drivable area segmentation task表 III提供了定量结果。所提模型在mIoU方面取得了第二和第三好的性能。YOLOPYOLOP的表现优于所提模型因为它们为分割任务segmentation task定制了损失函数customized the loss function。在mIoU方面In terms of mIoUAYOLOM(n)和A-YOLO(s)分别落后YOLOP 1%和0.5%。这个结果是可接受的。虽然所提模型可能在性能上略有牺牲但它更加灵活且更快。此外该模型在性能上远优于其他模型。例如YOLOv8n(seg)、MultiNet和PSPNet。虽然YOLOv8n(seg)比所提模型更快但其部署成本更高且其性能显著低于所提模型。 对于车道线分割任务表 IV提供了定量结果。AYOLOM(s)在准确率和IoU方面均取得了最佳性能。具体来说与YOLOP相比A-YOLOM(s)在准确率上具有 竞争力并且在IoU上高出2.3%。值得注意的是所提模型在所有分割任务中保持相同的结构和损失函数消除了在遇到新的分割任务时进行调整的需求。此外 YOLOv8 (seg)略逊于所提模型。根据表 III和表 IV中的结果提出的neck和head比YOLOv8(seg)更适合分割任务。由于使用平衡准确率进行评估Enet、SCNN和ENet-SAD采用了不同的准确率计算方法。因此无法直接将准确率与它们的进行比较。然而在IoU指标上的结果显著优于它们。 3Visualization:本节展示了YOLOP与所提模型之间的可视化比较。不仅评估了在良好天气条件下的性能还评估了在不利条件下的性能包括强阳光、夜间、雨和雪。将逐一分析每个场景。图 3显示了晴天下的结果。强烈的阳光会影响驾驶员的视线。同样它会影响摄像头的图像采集进而影响模型的表现。这对可行驶区域和车道线分割是一个挑战。在这种具有挑战性的场景中所提模型优于YOLOP。具体来说在强烈的阳光条件下如图中左右两侧的图像所示我们的模型提供了准确的车道线预测并为可行驶区域提供了更平滑的指示。此外模型在检测较小和较远的车辆方面表现出更高的准确性。如图中中间和右侧的图像所示所提模型成功检测到远处道路上的车辆包括相反行驶方向的车辆和靠近房屋的车辆。根据可视化结果所提模型在这个场景中优于YOLOP。 图 4 展示了夜间场景的结果。在夜间场景中由于光照有限和迎面车辆的反光图像质量下降。这对模型进行准确预测是一个挑战。在这种挑战下模型在车道线和可行驶区域方面始终产生更准确和更平滑的预测。A-YOLOM(s)不仅在分割任务中表现出色而且在检测任务中也表现出色。具体来说它通过准确检测到对向行驶的车辆即使在反光条件下甚至在与YOLOP抗衡时也表现出色。基于右侧图像的检测结果YOLOP在夜间检测远距离车辆方面略优于所提模型。然而与YOLOP相比所提模型在分割结果方面明显更好。特别是在中间图像中YOLOP错误地将对向车道预测为可行驶区域。这种误判对自动驾驶任务极为危险。 图5显示了雨天的情况。雨水会增加路面的反射从而影响驾驶员的判断。这个问题也体现在深度学习模型中。此外由于雨滴的折射和散射效应挡风玻璃上的雨滴可能会使整个图像模糊给模型的预测带来相当大的挑战。左侧图像的结果可以观察到YOLOP由于路面反射而无法准确分割可行驶区域。中间图像中也出现了类似的情况。YOLOP甚至难以区分汽车引擎盖和路面。然而所提模型在这种情况下仍然表现出卓越的性能。特别是对于A-YOLOM(s)它受路面反射的影响较小。所提模型在车道线检测方面也比YOLOP表现出色如右侧图像所示。然而**在这个场景中YOLOP在检测任务上优于所提模型。**如图所示YOLOP可以在更远的地方检测到更多的车辆。 图6显示了雪天的情况。在雪天条件下积累的雪可能会遮蔽道路或车道给模型带来额外的挑战。一些积累的雪被清理到道路两侧的雪堆中这对模型的车辆预测构成了挑战。例如在中间图像的左侧YOLOP错误地将一个雪堆识别为车辆。如果道路上有一个小雪堆车辆通常可以绕过它。将如此小的雪堆误识别为静止车辆可能是危险的。因此召回率并不总是越高越好。在召回率和精确度之间取得平衡至关重要。在展示的所有三个结果中模型在分割任务上显著优于YOLOP特别是A-YOLOM(s)的表现尤为突出。然而根据右侧图像的结果模型在检测远距离车辆方面落后于YOLOP尤其是在使用A-YOLOM(n)时。在各种天气条件下模型始终提供更准确和更平滑的分割结果。然而与YOLOP相比在恶劣天气条件下模型检测远距离和小目标的能力略有下降。
C. Ablation Studies 本节引入了一种消融研究以验证自适应拼接模块的有效性。此外还评估了分割neck和head对整体模型性能的影响。 (1) Adaptive concatenation module: 为了评估自适应连接模块的影响将其性能与有无该模块的情况进行了比较。具体来说YOLOM(n) 和 YOLOM(s) 作为基线代表了具有不同骨干的两个不同实验组。A-YOLOM(n) 和 A-YOLOM(s) 都包含了自适应连接模块。它们的分割neck结构完全相同且没有良好的设计。结果展示在表V中。当比较 AYOLOM(n) 与 YOLOM(n) 时发现检测和可行驶区域分割的性能相当。然而车道线准确率和 IoU 均有显著提升。同样当比较 A-YOLOM(s) 与 YOLOM(s)时观察到相同的改进趋势。这些结果表明自适应连接模块能够自适应地连接特征无需手动设计并实现与精心设计的分割头部相似或更好的性能从而进一步增强模型的泛化能力。 (2) Multi-task model and segmentation structure:为 了 评 估 多 任 务 方 法 对 每 个 单 独 任 务 的 影响 以 及提 出 的 分 割neck 和 head结 构在 分 割 任 务 领 域 内 比 较 了YOLOv8(segda)、YOLOv8(segll)、YOLOv8(multi)和YOLOM(n)的性能和head参数。YOLOM(n)与YOLOv8具有相似的骨干网络 这使得这种比较既公平又合理。 结果展示在表 VI中。YOLOv8(segda)和YOLOv8(segll)分别实现了可 行 驶 区 域 和 车 道 线 分 割 任 务。 YOLOv8(multi)是一 个 集 成 的 多 任 务 学 习 模 型 将YOLOv8(segda)、YOLOv8(segll)和YOLOv8(det)的neck和head结构整合到一个共享的骨干中。观察到性能有显著提升。这表明多任务学习可以相互增强各个任务的性能。 与YOLOv8(multi)相比YOLOM(n)拥有精心设计的、针对分割任务量身定制的neck结构。此外它还拥有显著更轻量级的头部结构 其复杂度仅为0.008倍。这一显著改进归功于独特的头部设计该设计仅依赖于一系列卷积层直接输出掩码无需额外的原型信息。YOLOM(n)在可行驶区域和车道线任务中分别实现了好的mIoU和IoU结果。此外在车道线任务中实现了具有竞争力的精度。这些结果证明了提出的颈部和头部创新在参数和性能开销最小的情况下取得了更好的结果。
D. Real roads experiments 本节主要讨论在真实道路数据集上进行的实验。具体来说使用行车记录仪捕获几个视频并将它们逐帧转换为图像以使用所提模型和YOLOP进行预测。每个转换后的图像数据集包含1428张图像分辨率为 1280 x 720 1280x720 1280x720。这些图像涵盖了三种场景高速公路、夜间和白天。图7显示了真实道路数据集的结果。然而所提模型在A-YOLOM(s)上始终维持相对稳定的性能。在所有任务中A-YOLOM(s)的表现优于YOLOP。同时与YOLOP相比A-YOLOM(n)仅在检测任务中略逊一筹。ADS必须能够在不熟悉的场景中平稳运行。这是至关重要的。真实道路上的结果表明所提模型可以满足真实道路上自动驾驶汽车的需求。
五、总结 本文介绍了一种针对实时自动驾驶应用的全端到端轻量级多任务模型设计。多任务模型的优势在于每个任务都能隐式地增强其他任务从而进一步提高所有任务的表现并增强模型在边缘设备上的部署能力。为了提高模型的一般性集成了一个自适应拼接模块并为每种类型的任务提出了统一的损失函数。这使得所提模型更加灵活。与使用BDD100k数据集的其他最先进的实时多任务方法相比所提模型不仅展示了优越的可视化结果而且具有更高的FPS。此外实际道路数据集的评估证明了所提模型在新型环境中的鲁棒性。