临沭做网站,汕头企业建站,哪个全球购网站做的好,网站被k换域名 老域名能不能跳转本文来自公众号“AI大道理” 当前的深度学习方法关注的是如何设计最合适的目标函数#xff0c;使模型的预测结果最接近地面的真实情况。同时#xff0c;必须设计一个适当的体系结构#xff0c;以方便获取足够的预测信息。
现有方法忽略了一个事实#xff0c;即输入数据在逐…
本文来自公众号“AI大道理” 当前的深度学习方法关注的是如何设计最合适的目标函数使模型的预测结果最接近地面的真实情况。同时必须设计一个适当的体系结构以方便获取足够的预测信息。
现有方法忽略了一个事实即输入数据在逐层进行特征提取和空间变换时会丢失大量的信息。
YOLOv9给出了解决方案。
YOLOv9前身是YOLOv7这是同一个团队。 1、YOLOv9的改进
在反向传播中深层特征层由于更加靠近标签所以参数更容易更新而浅层离输入图片近的对方由于山高皇帝远比较难以更新。
怎么办YOLOv9左右开弓建立辅助头。
右边是熟悉的类似yolov8一样的结构是标准的neckhead结构。
左边则新建一个backbone乱七八糟一堆neck加上head作为辅助头。
有什么用
backbone一般来说需要从右边的检测头经过neck再慢慢回传现在YOLOv9有了左边的分支左边的backbone离检测头要近很多从这里回传又快损失又少。这个backbone和主路的backbone一模一样共享参数。
当然这么做只是在训练的时候更好的训练一旦到了推理和测试阶段辅助头果断抛弃只留下标准的右边的结构即可。
这个思想之前在检测头部分已经有了只不过那时候是为了更好的训练检测头现在是为了更好的训练浅层部分。
这个思想怎么这么熟悉和resnet有异曲同工之妙 核心改进两点 PGI可编程梯度信息 GLEAN广义高效层聚合网络 2、PGI可编程梯度信息
在深度网络的训练过程中由于层与层之间的复杂映射有用的信息可能会逐渐丢失这会导致梯度信号变弱最终影响网络的学习效率和预测准确性。
PGI是一种旨在解决深度网络中的信息瓶颈问题的策略它可以为目标任务提供完整的输入信息来计算目标函数从而获得可靠的梯度信息来更新网络权值。
YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息这些设计有助于在网络的深层中保留更多的信息生成更可靠的梯度从而在训练过程中确保了更准确的目标与输入之间的关联。 可编程梯度信息的解释一个高大上的名字无非就是想说你可以随意回传到哪一层你可以自己决定即可编程主要还是在于这个思想
PAN (Path Aggregation Network): 这种结构通过聚合不同路径的信息来缓解信息瓶颈问题但仍然存在信息丢失的问题。
RevCol (Reversible Columns): 这种结构旨在保持信息流的完整性通过可逆列来避免信息的损失但代价是计算成本较高。
深度监督 (Deep Supervision): 这个方法通过在网络的不同深度层添加预测头来实现辅助监督这可以帮助网络学习到多层次的辅助信息但可能导致信息损坏。
可编程梯度信息 (PGI): 这是论文提出的新方法它通过辅助可逆分支产生可靠的梯度以供主分支使用从而控制主分支在多个语义层次上的学习这有助于更好地保留语义信息并优化梯度流。
图中的蓝色块代表神经网络中的层灰色块代表预测头或辅助分支虚线框高亮了每种方法的关键特征。 3、GLEAN广义高效层聚合网络 广义高效层聚合网络GELAN是一种新颖的架构它结合了 CSPNet 和 ELAN 原理来进行梯度路径规划。它优先考虑轻量级设计、快速推理和准确性。GELAN 通过允许任何计算块来扩展 ELAN 的层聚合从而确保灵活性。
该架构旨在实现高效的特征聚合同时在速度和准确性方面保持有竞争力的性能。GELAN的整体设计融合了CSPNet的跨级部分连接和ELAN的高效层聚合以实现有效的梯度传播和特征聚合。
GELAN是将CSPNet和ELAN的特点结合在一起并扩展以支持任何计算块的新型网络架构。
CSPNet: 这种架构包括一个分裂-合并的过程它通过在网络的不同层之间分裂和合并特征来提高性能和效率。
ELAN: 这是一种更进一步的架构它在CSPNet的基础上增加了多个卷积层conv的堆叠每个卷积层都会进行特征转换之后再进行合并。
GELAN: 提出的GELAN架构不仅模仿了CSPNet的分裂-合并机制还扩展了ELAN的设计使其可以使用任何类型的计算块而不仅限于卷积层。
这种设计增加了网络的灵活性使其能够根据不同的应用需求选择最合适的计算块。 4、其他
backbone主要就是多了一条backhonebackbone中使用了RepNCSPELAN4 模块。
neck/head主要是增加了辅助头。
loss functionloss为DFL Loss CIoU Loss
正负样本匹配策略为TaskAlign样本匹配 5、总结
YOLOv9结合了PGI可编程梯度信息和GELAN广义高效层聚合网络技术来克服信息瓶颈和深度监督在轻量级网络中的不适用性问题。
YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息这些设计有助于在网络的深层中保留更多的信息生成更可靠的梯度从而在训练过程中确保了更准确的目标与输入之间的关联。
左边的辅助头可以千变万化又是一个魔改的方向目测要yolov1000000...... ——————
浅谈则止细致入微AI大道理
扫描下方“AI大道理”选择“关注”公众号
————————————————————— —————————————————————
投稿吧 | 留言吧