街道网站建设,微博图片怎么做外链到网站,陕西建设厅证件查询网站,2233网页游戏大全自己的原文哦~ https://blog.51cto.com/whaosoft/11685452 #GKGNet
多标签分类遇上图卷积网络ViG
本文提出了第一个完全图卷积模型#xff0c;基于分组K近邻的图卷积网络GKGNet#xff0c;该模型在灵活且统一的图结构中#xff0c;同时建模语义标签嵌入与图像块之…自己的原文哦~ https://blog.51cto.com/whaosoft/11685452 #GKGNet
多标签分类遇上图卷积网络ViG
本文提出了第一个完全图卷积模型基于分组K近邻的图卷积网络GKGNet该模型在灵活且统一的图结构中同时建模语义标签嵌入与图像块之间的连接。实验表明GKGNet在具有挑战性的多标签数据集即MS-COCO和VOC2007数据集上以显著较低的计算成本实现了最先进的性能。
多标签分类是一个具有挑战性的任务旨在预测单个图像中的多个对象标签同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格patch方面取得了成功但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。在这项工作中我们提出了第一个完全图卷积模型基于分组K近邻的图卷积网络Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet该模型在灵活且统一的图结构中同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明GKGNet在具有挑战性的多标签数据集即MS-COCO和VOC2007数据集上以显著较低的计算成本实现了最先进的性能。
论文链接https://arxiv.org/abs/2308.14378
代码地址https://github.com/jin-s13/GKGNet
灵活图结构解决多标签分类任务 图1 CNN, Transformers, GCN对图片特征的提取
在多标签分类中与某个标签相关的区域可能是复杂的甚至是不连续的。例如为了识别图像中狗的存在需要关注多个区域因为可能存在多只狗。卷积神经网络CNN将图像视为像素网格并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域但局限的感受野让它难以适应不规则的兴趣区域。
相比之下视觉转换器Vision Transformer将图像视为一系列图像块(patch)具有全局感受野并通过全局注意力从图像块中提取视觉特征。然而对于小尺寸目标对象大多数图像块属于背景因此它们的注意力得分之和不能忽略让特征提取受到来自背景噪声的干扰。而图方法如 Vision GNN将视觉图像块视为节点通过将图像表示为图结构Graph来形成一种灵活的特征提取方法。
具体而言
1. 感受野是全局的根据语义特征相似性寻找邻居节点能够灵活在全图寻找目标区域。
2. 特征传递是局部的只发生在邻居节点之间。减少了背景区域的干扰。
这让图结构可以很好的适应目标区域的分布复杂大小不一的难点。
方法介绍 图2 GKGNet网络结构
在这项工作中我们提出了第一个用于多标签分类任务的完全图卷积网络GCN即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点并在统一的图结构中处理它们。
GKGNet构建了两种不同的图一种是跨层次图cross-level建模目标标签和图像块之间的标签-对象关系另一种是图像块层次图patch-level处理和更新图像块之间的图像特征。
这样GKGNet能够自适应地整合兴趣补的特征即使在存在不规则和不连续区域的情况下也能有效更新视觉特征和标签嵌入的统一图表示。
如图2所示图像块节点和标签节点通过四个分层阶段进行处理。 图3 KNN无法自适应地处理不同尺度的对象
图构建是GCN成功的关键。但是目前广泛使用的K近邻KNN构图方法只能会选择固定数目的邻居节点无法自适应地处理不同尺度的对象。如图3邻居数量K控制了提取和聚合区域特征的区域大小。过大的K会导致特征过度平滑并涉及无效背景的干扰而过小的K又难以选取足够的目标区域影响特征提取和消息传递。 图4 Group KNN的分组和可重叠策略
因此我们提出了基于Group KNN的GCNGroup KGCN模块该模块将节点特征拆分为多个组并在每个组之间构建连接如图4。通过设计每个组选择的邻居节点可以重叠Group KNN方法允许目标节点与动态数量的源节点进行交互并处理不同尺度的对象。
利用不同的组允许目标节点与不同数量从个到 × 个的源节点建立连接。如图4所示子目标节点11连接到子源节点11 和21而子目标节点12连接到子源节点31和41。这使得目标节点1能够与四个源节点进行交互123 和 4。这种情况通常发生在目标节点涉及到更广泛的兴趣区域时 例如大型目标对象。
相反当不同组的邻居重叠时所选择的源节点数量会减少。例如2的两个子目标节点都连接到源节点2导致仅与三个源节点进行交互12和4。这种情况通常发生在目标节点仅涉及到小的兴趣区域时例如小型目标对象从而有助于在信息传递过程中绕过无关信息。
最终基于Group KNN的Group KGCN模块如图5所示。 图5 Group KGCN模块结构
实验结果
GKGNet在具有挑战性的多标签数据集即MS-COCO和VOC2007数据集上以显著较低的计算成本实现了SOTA的性能。 表1 MS-COCO数据集结果 表2 VOC数据集结果
下表3证明了GKGNet模型各个组件的效果P、C和G分别代表Patch-Level Graph、Cross-Level Graph和Group KNN。 表3 GKGNet模型组件的效果MS-COCO数据集
为了探索Group KNN在通用图像识别中的效果我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验可以看到top-1准确率显著提高。 表4 Group KNN在通用图像识别上的性能
可视化展示 图6 GKGNet的可视化
在图6的可视化中彩色色块表示图像块与标签的连接。我们可以观察到Group KNN有效地适应了对象的大小。对于较小的对象最终选择的标签节点集中在包含目标对象的区域。对于较大的对象最终选择的标签节点覆盖了足够的区域并关注对象的不同部分。此外通过利用不同的子组Group KNN灵活地提取共现关系例如汽车和交通信号灯之间的关系。
总结
在本文中我们提出了GKGNet一种新颖的全图卷积模型用于多标签图像识别任务。我们首次研究了视觉特征和标签嵌入的统一图表示。提出的Group KGCN模块用于动态图构建和消息传递有效处理不同对象的尺度变化从不同角度捕捉信息并建模不同对象的共现关系。在MS-COCO和VOC2007等公共基准数据集上的综合实验验证了我们方法的有效性。我们希望将多模态特征与动态图表示相结合的理念能够广泛应用并引起社区对这一有前途方向的关注。未来我们计划将我们的工作扩展到更广泛的基于图学习的问题如点云和社交网络。视觉AI 开发板商城 天皓智联 whaoosoft aiot -- gitee可找到我 #xxx #用「画家流水线」的方式理解Transformer中间层
Transformer架构层层堆叠包含十几亿甚至几十亿个参数这些层到底是如何工作的当一个新奇的比喻——「画家流水线」被用于类比并理解Transformer架构的中间层情况突然变得明朗起来并引出了一些有趣的发现。
尽管Transformer架构已经主宰了当今几乎所有的大模型但我们依旧对它的工作原理知之甚少。
而且基于Transformer的预训练LLM动辄有几十亿参数很难直接对模型进行可解释性分析。
同时模型中间层由N个相同的块堆叠在一起它们之间唯一的区别只有层次位置和权重值这就让理解中间层更加困难。
然而最近发表的一篇论文却给出了一个十分通俗易懂的比喻——「画家流水线」。
论文地址https://arxiv.org/pdf/2407.09298v1
有着「东京AI梦之队」之称的Sakana AI联合IBM前AI负责人Satya Nitta创始的Emergence AI两个团队的研究人员用一种新的「打开方式」来解释Transformer架构的中间层。
值得一提的是这篇论文作者之一Llion Jones同样也是当年Transformer架构的共同创建者之一。
那么「画家流水线」这个比喻该如何理解呢
首先输入被看作是一张画布输入通过N个组成中间层的块的过程就像是画布在「画家流水线」上进行传递的过程。
有些画家擅长画鸟而有些画家则更擅长画鱼。每个画家从前面的画家手中接过画布然后决定是在画上添几笔还是直接传给后面的画家。
在这个类比中非常重要的一点是每个画家都使用相同的「词汇」来理解画作因此一个画家可以在流水线上从前一个画家手中接过画作但不会因为对画面理解不同而造成灾难。
画家们也可以重新排序调整图层的前后顺序甚至可以同时添加笔触就像N个块可以并行运行。
这个类比并不是一个严谨的理论但可以提供一个帮助我们思考Transformer层的有趣视角。
在这个类比的启发下研究人员提出了一些假设并通过实验来验证这些假设是否成立——
不同层是否使用相同的表征空间所有的层都是有必要的吗中间层是否都在执行相同的功能层的顺序重要吗我们能并行运行各层吗顺序是否对与某些特定任务而言更重要循环是否有助于并行层哪些变体对性能的损害最小
实验
主要用于实验包括两种预训练LLM分别是decoder-only架构的Llama2-7B以及encoder-only架构的BERT。Llama2-7B有70亿个参数和32层每层含2.02亿个参数BERT仅有24层和3.4亿个参数。
在下述所有实验过程中模型都是冻结的。除了对BERT进行GLUE基准测试时进行了标准的微调步骤参数没有经过任何修改。
评估过程采用了ARC科学考试题、HellaSwag常识、GSM8K数学应用题、LAMBADA单词预测等常用基准。
其中LAMBADA任务可以衡量模型困惑度perplexity任务最接近预训练时的原始token预测。
结果发现Transformer的中间层有一定程度的一致性但不冗余而且对数学、推理任务而言各层的运行顺序比在语义任务中有更重要的影响。
各层「说同一种语言」
Transformer中的不同层是否共享相同的表示空间
为了回答这个问题论文采用的方法是让模型跳过特定层或调换相邻层的顺序观察会不会出现灾难性后果。
图2中展示了Llama 2 7B在跳过或调换一些层后模型整体在Open-LAMADA基准上的表现。
可以看到除了起始和末端的几层模型对这两种架构修改都表现出了相当强的鲁棒性。
因此可以得出初步结论1)中间层共享同一个表示空间2)表示空间与「外层」第一层和最后几层不同。
为了进一步验证论文还进入模型内部测量了不同层中隐藏状态内激活函数的余弦相似度图3表明这种一致性在三个模型的所有中间层都成立。
上图还可以很清晰看到模型各层自然形成了45个不同的相似组比如Llama 2 13B模型中分别是第0层1-3层、中间层以及最后的1层或2层。
据此Transformer中的所有层可以被大致分为三类起始层、中间层和结束层。
此外图3中的矩阵也能和图2中的模型分数相对应更能有力证明中间层之间共享语义表达空间。
所有层都必要
为了进一步检验中间层的重定向空间是否真正共享除了具有接近的余弦相似性研究人员尝试跳过多个层。
也就是说将第N层的输出直接送入第NM层的输入其中M1从而「跳过」M-1层。
在不进行任何微调的情况下这个实验是要看看NM层能否理解来自N层的激活尽管它在训练中只接受了来自NM-1层的输入。
结果显示Llama2-7B和BERT-Large的许多基准性能都出现了一定程度的下降。
那么所有层都有必要吗这一问题已经有了答案。
No! 并非所有层都是必要的至少有几个中间层可以跳过而不会发生灾难性故障。
左图Llama2-7B跳过N层32-N层的基准测试结果归一化右图BERT跳过N层24-N 层的基准测试结果未归一化
中间层功能相同吗
如果中间层共享一个共同的表征空间这是否意味着这些层是多余的呢
为了验证这一点研究人员重新进行了上一小节的「跳过」实验。
但不同的是这次不是直接跳过M个中间层而是用模型最中心的的一层代替全部M个层Llama是第16层BERT是第12层相当于在这一层上循环T-2N1次其中T是层的总数。
结果表明随着被替换层数M的增加基准测试结果迅速下降。
在研究人员所尝试的所有测试中这一项测试的变化是最严重的比直接跳过一些层还要严重得多。
因此中间层功能相同吗这一问题的答案是——
No! 在中间层之间共享权重是灾难性的这表明中间层在执行不同的功能。
用中心层替换M个中间层左侧经过归一化右侧未经归一化
顺序重要吗
之前的实验表明中间层共享一个表征空间但对这个空间执行不同的操作。
那么另一个问题来了——这些操作的执行顺序有多重要
论文进行了两组实验来检验这个问题。首先以与预训练完全相反的顺序运行中间层如下图所示
第二组则是以随机顺序运行中间层最终结果是取10个随机种子进行实验后的均值。
图6和图7分别展示了中间层完全翻转和随机顺序的结果虽然都出现了一定程度的性能下降但两者的结果都优于直接跳过的情况。
所以中间层顺序重要吗这一问题的答案是——
比较重要。改变中间层的执行顺序无论是随机打乱或者完全翻转都会导致模型性能退化。
并行运行
如果层本身的存在比它们的执行顺序更重要那么我们是否可以独立运行各层最后合并它们的结果呢
比如像下图中将原本堆叠在一起的中间层展开并行运行后取各层输出的平均值传递给最后的N个层。
实验结果显示GSM8K数学应用题基准中模型性能有剧烈的变化直线下降其他基准分数的下滑则平缓得多。
我们暂且可以下这样一个结论并行运行是可行的但解决数学问题除外。
要理解这种性能下降可以用我们的「画家流水线」进行类比某些中间层只有在看到合适输入时才能对结果有所贡献就像一个擅长画车轮的画家只有在画面上看到汽车车身时才更有可能画出轮子。
如果是这种情况将中间层并行运行的过程迭代多次应该会提高性能。
如下图所示论文将多个并行层的平均输出再作为输入反馈回去如此进行一定次数的循环。
图9显示了循环3次的结果与图8中没有循环的方案相比性能曲线的确相对平缓尤其是在图右BERT模型未经归一化的分数上更加明显。
图10更清楚直观地展示了并行的中间层数和循环次数如何影响性能其中红框圈出了每列上的最高值。
除了29层和31层接近Llama 2 7B的总层数32得出例外的结果从5层到27层都呈现出一致的趋势最佳迭代次数大致与并行化层数呈线性比例。
实验结果总结
将上述所有实验结果放到同一张图中图11我们就能比较不同变体对模型性能的影响程度
左图Llama2取各基准的中值右图BERT取各基准的平均值
「随机化层顺序」和「循环并行」分别在Llama2和BERT-Large上造成了最少的性能下降「中间重复」方案用中心层运行多次代替整个中间层则在两个模型上都造成了最严重的滑坡。
讨论
自从Transformer发布后大多数工作都在关注架构的修改和优化以达到性能提升或参数减少。这篇论文则提供了另一种视角调查了层并行化和重用的影响。
基于「Transformer层即画家」这个类比我们开头提出的几个问题都通过实验得到了答案最后得到了3个有趣的发现
所有Transformer层可以大致分为三类起始层、中间层和结束层其中中间层占比最大中间层具有一定程度的一致性但并不冗余与语义任务相比各层的执行顺序对数学和推理任务更为重要。
为什么Transformer架构面对各种架构修改时能表现出如此强大的鲁棒性作者表示将在之后的工作中再深入研究。
一个可能的假设是训练过程中的残差连接是各层共享相同表征的必要条件。
我们已经知道残差连接有助于解决梯度消失问题然而相比没有残差连接的Transformer加上残差会降低性能。
如果能在没有残差的Transformer上重新运行上述架构的变体看看是否会破坏完全无残差模型所取得的微薄收益那将会非常有趣。
对于未来的其他工作研究人员还计划「解冻」模型并研究Transformer是否需要以及需要多长时间通过微调来适应上述的架构变化。
虽然本文的目的是更好地理解Transformer的中间层而非引入新模型但根据实验结果中间层并行或者干脆跳过都可以用适度的准确性损失换取更低的推理延迟。
作者团队
本文作者分别来自两家AI初创公司Sakana AI和Emergence AI。
Sakana AI在今年年初刚刚获得3000万美元的种子轮融资由Lux Capital领投并得到了硅谷顶级风投公司Khosla Ventures以及Jeaf Dean、Alexandr Wang等大佬的支持。
公司研发的重点是基于自然启发的新型基础模型创始团队也是星光熠熠一半成员来自「AI黄埔军校」——谷歌大脑和DeepMind。
相比于关注基础研究的SakanaEmergence AI更关注应用专门从事LLM驱动的multi-agent系统研发。
公司联合创始Satya Nitta曾担任IBM研究院「AI解决方案」领域的全球主管其中的许多研究人员和工程师也同样来自谷歌、Meta、微软、亚马逊和Allen AI等顶尖机构。
Emergence上个月刚刚从Learn Capital获得9720万美元的资金以及额外的总计超过一亿美元的信贷额度未来的发展也是前途可期。
参考资料
https://arxiv.org/abs/2407.09298v1 #CFPT
干翻一众 FPN专攻小目标检测CFPT无需上采样的新型特征金字塔网络
在本文中作者提出了跨层特征金字塔 Transformer CFPT这是一种无需上采样的新型特征金字塔网络专门为航拍图像中的小目标检测而设计。 目标检测一直是一项具有挑战性的任务。大多数当前检测器优先考虑新颖的检测框架却常常忽视了对基本组成部分如特征金字塔网络的研究。在本文中作者提出了跨层特征金字塔 Transformer CFPT这是一种无需上采样的新型特征金字塔网络专门为航拍图像中的小目标检测而设计。CFPT采用了两个精心设计的、具有线性计算复杂度的注意力模块跨层通道注意力CCA和跨层空间注意力CSA。 CCA通过划分通道 Token 组来实现跨层交互以沿空间维度感知跨层全局信息而CSA则通过划分空间 Token 组来完成跨层交互以沿通道维度感知跨层全局信息。通过整合这些模块CFPT一步实现跨层交互从而避免了元素逐点加和以及层与层之间传递引起的语义差距和信息丢失。此外CFPT融入了全局上下文信息这增强了小目标的检测性能。为了在跨层交互中进一步提升位置感知作者基于层间相互感受野提出了跨层一致相对位置编码CCPE。作者在两个具有挑战性的航拍图像目标检测数据集上评估了CFPT的有效性分别是VisDrone2019-DET和TinyPerson。大量实验证明了CFPT的有效性它在计算成本更低的情况下性能优于现有的特征金字塔网络。 相关代码将在https://github.com/duzw9311/CFPT发布。 I Introduction
得益于卷积神经网络CNNs和视觉 Transformer ViTs的进步现有的目标检测器已经取得了显著的发展并在自动驾驶、人脸检测、医学图像分析和工业质量检查等众多应用领域奠定了其基本解决方案的地位。
作为目标检测的一个子领域小目标检测由于在卷积和池化操作过程中小目标特征可能会被大目标特征所淹没或遮盖因此相较于传统的目标检测任务面临更大的挑战。如图3所示作者展示了两个经典的小目标检测数据集在航拍图像中的数据分布箱线图VisDrone2019-DET [2] 和 TinyPerson [3]。箱线图凸显了 VisDrone2019-DET 数据集不仅包含大量小目标20到30像素而且存在显著的尺度变化。相比之下TinyPerson 数据集相比于 VisDrone2019-DET主要包含更小尺寸的目标大多数目标的大小不超过20像素。无人机飞行高度和拍摄角度显著影响目标尺度分布导致在航拍图像上的目标检测性能相对较差。 图1在VisDrone2019-DET数据集上各种最先进特征金字塔网络的性能比较。作者通过替换RetinaNet [1]中的 Neck 组件来评估它们的性能。 为了应对这些挑战已经连续提出了许多研究。鉴于无人机场景中前景的比例较小现有的解决方案通常采用由粗到精的检测方案[4, 5, 6]。在粗略预测阶段通常使用一个通用检测器来检测目标并预测密集的目标簇。随后在细化阶段通常会修剪、上采样该簇并将其重新输入检测器以进行精细搜索。尽管上述模型架构可以有效地适应无人机视角并且在较低的计算成本下比直接输入高分辨率图像增强了各种检测器的性能但它仍然缺少专为空中图像中目标检测定制的基本组件例如特征金字塔网络。特征金字塔网络作为图像金字塔的低计算成本替代方案在多种检测器中被广泛使用并已成为每个检测器的基本组成部分。最早的FPN [7]使用自上而下的单向路径将语义信息整合到浅层特征图中有效增强了模型在多尺度目标检测方面的能力。由于逐层传递的单向路径不可避免地造成信息丢失[8]随后的特征金字塔网络逐渐过渡到层与层之间的直接交互。
作者提出CFPT一种新的跨层特征金字塔结构它通过在不同方向即空间方向和通道方向促进跨层信息交互来增强模型的表达能力。
通过整合这两种交互CFPT能够有效地捕获小型目标的必要全局上下文信息同时保持较低的计算成本。
作者提出CCPE一种基于层间互惠感受野的新型位置编码方法旨在增强模型在跨层交互过程中对空间和通道位置的认识。通过在VisDrone2019-DET和TinyPerson数据集上的大量实验作者证明了CFPT在航拍图像中小型目标检测的有效性。
II Related Work
Small Object Detection in Aerial Images
现代的目标检测器通常通过连续的卷积和池化层降低输入图像的分辨率力求在性能与计算复杂度之间达到最佳平衡。因此检测小物体本质上比常见目标检测更具挑战性因为它们的小尺寸增加了在下采样过程中信息丢失的风险。
对于航拍图像中的小目标检测ClusDet [17]采用了一种从粗到精的方案首先检测密集的目标簇然后在这些簇内进行搜索细化以提高模型检测小物体的能力。DMNet [18]简化了ClusDet的训练过程通过采用密度图生成网络来为簇预测生成密度图。遵循类似的检测流程CRENet [19]和GLSAN [4]进一步增强了聚类预测算法并优化了细粒度预测方案。UFPMP-Det [6]采用UFP模块和MPNet预测子区域并将它们组装成单一图像以实现高效的单一推理从而提高了检测的准确性和效率。CEASC [20]利用稀疏卷积优化了航拍图像中目标检测的传统检测器降低了计算需求同时保持了竞争力的性能。DTSNNet [21]在Backbone和Neck之间引入了人工设计的块以提高模型对多尺度特征的敏感性并采用了专门针对小物体的训练样本选择方法。
上述解决方案优化了各种检测器以适应航拍图像中的目标检测场景而作者提出了一种专门针对这一背景下小目标检测的新型特征金字塔网络。
Feature Pyramid Network
为了减轻图像金字塔带来的巨大计算成本特征金字塔网络FPN作为一种有效且高效的替代方法出现它提高了各种检测器的性能。FPN [7] 利用一系列自顶向下的快捷连接来增强浅层特征图中缺乏的语义信息。基于FPNPAFPN [12] 提出使用自底向上的快捷连接来解决深层特征图中细节信息的不足。Libra-RCNN [22] 通过结合非局部块来改进原始特征以获得平衡的交互特征。为了减轻多尺度特征图中的语义差距AugFPN [23] 引入了连贯的监督分支并提出了ASF用于跨多尺度动态特征融合。FPG [8] 使用规则网格表示特征尺度空间并通过平行路径之间的多方向横向连接进行融合从而增强了模型的特征表示能力。AFPN [11] 通过深层和浅层特征图的跨 Level 融合迭代改进多尺度特征在具有常见尺度分布的目标检测中取得了竞争性的性能。
与先前方法不同作者提出了CFPT它利用全局上下文信息并策略性地强调浅层特征图以增强航拍图像中小型目标的检测。
Vision Transformer
作为计算机视觉中Transformer[24]的扩展Vision Transformer (ViT)[25]在各种各样的视觉场景中[26, 27, 28]展示了显著的潜力。由于传统ViT与图像分辨率相关的二次计算复杂度后续研究主要集中在开发轻量级的替代方案。Swin Transformer[29]通过限制特定窗口内的交互并在交互过程中移动这些窗口以实现全局感受野。局部ViT[30, 31, 32]通过局部窗口内的交互引入局部诱导偏差有效降低了模型的计算复杂度并加快了收敛速度。轴向注意力[33]通过将交互限制在图像宽度和高度上的条带减少了计算复杂度。
遵循类似的轻量级概念作者设计了两款具有线性复杂度即CCA和CSA的注意力块以跨层捕捉沿各种方向即空间方向和通道方向的全局上下文信息从而增强了模型对小物体的检测能力。
III Methodology
在本节中作者将详细介绍所提出的跨层特征金字塔 Transformer CFPT。在第三节A部分作者首先概述了所提出CFPT的整体架构。随后在第三节B和C部分作者介绍了CFPT的两个关键组成部分即跨层通道注意力CCA和跨层空间注意力CSA。在第三节D部分作者提出了一种新颖的跨层一致相对位置编码CCPE旨在增强模型的跨层位置感知能力。
Overview
如图4所示CFPT采用多个并行的CBR块来构建跨层特征交互的输入这些输入来自特征提取网络如ResNet[34]的多级特征图输出从而降低了计算复杂度满足了大多数检测器在架构上的要求。通过利用堆叠的跨层注意力模块CAMsCFPT增强了模型利用全局上下文信息和跨层多尺度信息的能力。 具体来说CAM模块由一系列跨层通道注意力CCA和跨层空间注意力CSA组成。CCA沿着通道维度促进局部跨层交互从而通过每个通道 Token 组的交互在空间维度上建立一个全局感受野。相反CSA沿着空间维度促进局部跨层交互通过每个空间 Token 组的交互捕捉通道维度的全局上下文信息。此外作者通过在CAM的输入和输出之间使用捷径分支来进一步提高梯度增益。
假设经过CBR块后每个尺度的特征图可以表示为 , 其中 是输入层的数量, 每个特征图的空间分辨率 随橧加而增大, 同时保持通道数 不变。上述过程可以描述为
其中是一组经过跨层交互的多尺度特征图其形状与相应的输入特征图保持一致。
值得注意的是作者的CFPT消除了复杂特征上采样操作和逐层信息传输机制这些机制在层间传输过程中容易造成信息丢失并导致计算负载增加和内存访问延迟。相反作者通过利用尺度间相互感受野大小的局部分组操作对多尺度特征图执行一步跨层邻近交互操作从而促进尺度间的信息混合。这种方法使得每个尺度的特征能够平衡地从其他层获取信息即使这些层相隔较远同时促进自我修正并从局部交互提供的归纳偏置中受益[32]。
跨层通道注意力
假设CCA的输入特征图集合为 。如图5(a)所示, CCA沿着通道维度执行跨层的多尺度邻近交互, 从而为每个通道 Token 提供空间维度的全局上下文信息。为了构建交互式输入, 作者首先在每个尺度上对特征图执行通道重建 (CR), 以确保它们具有相同的空间分辨率, 从而得到 。CR是一个与YOLOv5中的Focus类似的操作符,但不同之处在于它不使用额外的操作进行特征映射。相反, CR将空间维度的特征值堆叠到通道维度, 从而在保持效率的同时实现一致的空间分辨率。上述过程可以描述为 接下来, 作者执行重叠通道式 Patch 划分 (OCP) 以形成通道式标记组, 这可以看作是沿着通道维度在局部区域具有重叠区域的 Patch 嵌入[25], 其中不同尺度的特征图上的 Patch 大小是不同的。具体来说, 根据多尺度特征的形状, 中相邻特征图的通道大小相差一个 4 倍因子即, )。为了构建重叠的邻近交互组, 作者引入一个扩展因子 对 执行OCP, 从而得到 。上述过程可以描述为 以第 层的特征图为例, 在获得 之后, 作者采用跨层一致的多头注意力机制来捕获沿空间维度的全局依赖性, 从而得到交互结果 。 其中 是线性投影矩阵。 分别表示连接的键和值, 其中 代表连接操作。 表示第 个跨层一致相对位置编码CCPE, 具体细节将在第三节D中介绍。注意, 为了简化, 作者只考虑头数为 1 的情况。在实践中, 作者采用多头机制来捕获每个通道式标记的全局依赖性。
在为每个尺度的特征图获得交互结果 之后, 作者应用反向重叠通道式 Patch 划分 (ROCP) 来恢复 OCP 的影响, 并得到 。作为 OCP 的反向操作, ROCP旨在使用与OCP相同的核大小和步长来恢复原始的空间分辨率。
作者最终使用空间重建 (SR) 来获得与输入X形状相匹配的结果 。
Cross-layer Spatial-wise Attention
同样将CSA的输入特征图集合表示为 。如图5(b)所示CSA沿着空间维度跨层执行多尺度邻近交互为每个空间标记提供沿通道维度的全局上下文信息。
由于输入特征图的通道大小在CBR块后匹配例如256无需使用CR和SR等方法来调整它们的大小, 正如在CCA中所做的那样。因此, 作者可以直接执行重叠空间划分 (OSP) 来形成空间标记组, 这可以看作是在不同尺度特征图上使用不同大小的矩形框进行滑动裁剪。假设OSP的扩展因子为 , 通过上述操作, 作者可以得到 。上述过程可以表示为 然后, 作者在跨层空间标记组内执行局部交互, 并使用跨层一致性多头注意力来捕获沿通道维度的全局依赖性, 从而得到 。对于第 层的特征图, 这个过程可以表示如下: 其中 是线性投影矩阵。和 。 表示第 层的跨层一致性相对位置编码 (CCPE) 。
接下来, 作者使用反向重叠空间划分ROSP来反转OSP的效果, 并获得交互结果集 。
Cross-layer Consistent Relative Positional Encoding
由于在交互过程中它们各自的跨层标记组内的每个标记都保持着特定的位置关系。然而传统的多头注意力机制统一处理所有交互标记这对于像目标检测这样对位置敏感的任务来说会导致次优结果。因此作者引入了跨层一致相对位置编码CCPE以增强CFPT在交互过程中的跨层位置感知。
CCPE的主要解决方案是基于对多个尺度上的相互感受野进行对齐, 这由卷积的特性决定。以CSA 为例, 每对空间标记组之间的注意力图集合其中 是头的数量, , 如方程 9 中定义。为了简化, 作者忽略 和 , 并定义 和 , 其中 和 分别表示第 层和第 层空间标记组的高度和宽度。因此, 注意力图集合可以重新表示为 。
CCGE的过程如图6所示。作者定义了一个可学习的码本 , 并通过计算它们的跨层一致相对位置索引, 从码本中获取任意两个标记之间的相对位置信息。为了简化, 考虑来自第 层和第 层的空间标记组的交互其中 和 分别表示它们各自的绝对坐标矩阵。 为了获得 相对于 的相对位置信息, 作者首先使用它们各自的空间标记组大小来中心化它们的坐标, 以获得 和 。
Complexity Analysis
在本节中作者将分析典型相关分析CCA和通道分割注意力CSA的计算复杂性。此外由于在训练和测试阶段空间域和通道域的标记组大小保持不变它们的计算复杂性与输入特征图的空间分辨率成线性关系。
Iii-E1 Cross-layer Channel-wise Attention
考虑一组输入特征图集合, 记作 。此外, 令 表示在CCA中使用的扩展因子。CCA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的 。
Iii-E2 Cross-layer Spatial-wise Attention
假设输入特征图集合为 。此外, 令 表示在CSA中使用的扩展因子。CSA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的 。
IV Experiments
Datasets
作者通过将提出的CFPT应用于两个特别为从小型无人机视角进行小目标检测而设计的挑战性数据集来评估其有效性VisDrone2019-DET [2] 和 TinyPerson [3]。
Iv-A1 VisDrone2019-DET
这个数据集包含了7,019张由无人机拍摄的图片其中6,471张用于训练548张用于验证。数据集涵盖了十个类别自行车、三轮车、三轮机动车、货车、公交车、卡车、摩托车、行人、人以及汽车。这些图片的分辨率大约为像素。
Iv-A2 TinyPerson
这个数据集由无人机收集主要用于远距离场景中的小目标检测因为目标目标的平均长度小于20像素。它包含1,610张图片其中794张用于训练816张用于测试。数据集包含72,651个标记实例分为两组“海上行人”和“陆地行人”。为了简化作者将上述两个类别合并为一个类别命名为“行人”。
Implementation Details
作者使用PyTorch [48] 和MMdetection工具箱 [49] 实现了所提出的CFPT。所有模型都在单块RTX 3090上进行训练和测试批处理大小为2。在模型训练中作者使用SGD作为优化器学习率为0.0025动量为0.9权重衰减为0.0001。作者在VisDrone2019-DET数据集上进行了消融研究并比较了各种最先进的特征金字塔网络性能输入分辨率为并采用计划12个周期。为了加速模型收敛作者在训练开始时采用了线性预热策略。为了比较在VisDrone2019-DET数据集上各种最先进检测器的性能作者训练模型15个周期以确保按照CEASC [20]的方法完全收敛。
在TinyPerson数据集 [3] 的实验中为了减少内存使用过度作者将高分辨率图像划分为大小均匀的块并设有30%的重叠比例。每个块按比例缩放以确保最短边长为512像素。为了全面评估模型性能作者在模型训练中设置了批处理大小为1并采用计划同时实施多尺度训练和多尺度测试。
Comparison with Other Feature Pyramid Networks
作者最初在VisDrone2019-DET数据集上将提出的CFPT与基于RetinaNet [1]的各种最先进特征金字塔网络性能进行了比较。如表格I所示作者的CFPT在不同的 Backbone 网络上包括ResNet-18、ResNet-50和ResNet-101均取得了RetinaNet的最佳结果同时在性能与计算复杂度之间取得了最优平衡。此外与专注于航拍图像中小目标检测的SSFPN相比作者的CFPT在参数更少分别为-3.8M、-3.5M和-3.5M和FLOPs更低分别为-55.5G的情况下实现了更好的性能0.8 AP、0.5 AP和0.4 AP。这证明了CFPT在航拍图像中小目标检测的应用潜力。
Comparison with State-of-the-Art Methods
为了进一步验证CFPT的有效性作者将当前最先进检测器中的特征金字塔网络替换为CFPT并在VisDrone2019-DET和TinyPerson数据集上比较其性能表现。
Iv-D1 VisDrone2019-DET
作者将GFL [43]中的特征金字塔替换为CFPT并将其性能与各种最先进的检测器进行比较。如表格II所示应用作者的CFPT分别基于ResNet-18、ResNet-50和ResNet-101将GFL的性能提升了0.8 AP、0.7 AP和0.7 AP。尽管参数数量略有增加分别为0.3 M、0.2 M和0.2 M。与CEASC [20]相比作者的参数仅增加了0.1 M却实现了显著的性能提升分别提升了0.7 AP、0.6 AP和0.6 AP证明了作者CFPT的有效性。
Iv-D2 TinyPerson
在TinyPerson数据集上的比较中作者采用了文献[3]中定义的评价指标来全面评估模型的性能。作者观察到GFL [43]在细粒度检测方面表现出色这体现在其在AP-tiny指标上的优越性能上而FSAF [41]在粗粒度预测方面更为有效这从其在AP-tiny和AP-tiny指标上的更好性能可以证明。因此作者将CFPT分别整合到GFL和FSAF中以评估其在两种场景下的适应性。如表格III所示CFPT带来了显著的性能提升包括为GFL提高了2.4个AP-tiny44.2 AP-tiny对比41.8 AP-tiny以及为FSAF提高了2.0个AP-tiny44.5 AP-tiny对比42.5 AP-tiny所有性能指标均有增强。因此有效整合CFPT可显著提升模型对小物体的检测性能证明了其在航拍图像中小目标检测的有效性。
Ablation Study
在消融研究部分的开头。
V-E1 Order of CCA and CSA
作者研究了CCA典型相关分析和CSA通道空间注意力应用的顺序对模型性能的影响。具体来说作者比较了如图7所示的三种解决方案的性能包括先应用CCA后应用CSACCACSA、先应用CSA后应用CCACSACCA以及同时应用CCA和CSACCACSA。如表4所示CCACSA的模式取得了最优性能平均精度AP为22.2。作者认为这是因为CCA沿着空间方向提供了全局感受野使得CSA能够利用全局上下文信息来预测更准确的注意力图并获取更优的邻近细节信息。然而由于CSA沿着通道方向具有全局感受野首先应用它可能会破坏局部性阻止CCA准确关注空间上的邻近信息。此外CCACSA将导致CCA和CSA之间没有交互使得无法利用彼此的信息进行精细的信息聚合。 V-E2 Effectiveness of each proposed component
作者通过逐步将提出的模块整合到 Baseline 模型即没有FPN的RetinaNet中来评估每个组件的有效性。如表5所示将CCA和CSA分别整合到 Baseline 模型中显著提升了模型性能分别提高了3.5个AP和3.4个AP。将CCA和CSA综合整合到CAM中模型实现了3.9个AP的提升22.0 AP对比18.1 AP。随后应用CCPE进一步增强了模型性能最终AP达到了22.2。值得注意的是与表1中的大多数特征金字塔网络相比仅整合CCA或CSA就能实现更优的性能这突显了它们在航空图像中小目标检测的潜力。 作者还报告了每个组件对模型计算复杂度、参数数量和推理速度的影响具体见表5。当仅使用单一组件例如CCA时与 Baseline 模型相比CFPT引入了额外的1.4M参数、7.4G FLOPs和每张图像0.004秒的推理延迟同时实现了显著性能提升3.5 AP。当使用所有组件时CFPT引入了额外的2.8M参数、14.8G FLOPs和每张图像0.01秒的推理延迟同时实现了显著性能提升4.1 AP。因此CFPT能够在性能与计算复杂度之间实现更好的平衡。
Iv-D3 Number of CAMs
作者评估了CAMs数量对模型性能的影响。如表格VI所示增加CAMs的数量一致性地提升了模型的性能。当使用三个CAMs时模型达到了22.5的AP相较于 Baseline 模型提高了4.4个AP点22.5 AP对比18.1 AP。为了更好地平衡计算复杂度与性能作者在所有其他实验中将CAM的堆叠数量设置为1尽管更多的CAMs会带来更多的好处。
Iv-D4 Channel Size reduction factor and MLP ratio
作者研究了不同的通道尺寸缩减因子即特征图通道在注意力交互中的压缩比和多层感知器MLP比例即在FFN中通道尺寸的扩展比的影响旨在找出能够平衡计算复杂度和模型性能的最佳组合。如图9所示当通道尺寸缩减因子设为4MLP比例设为2时模型在计算复杂度和性能之间达到了最佳平衡。因此在VisDrone2019-DET和TinyPerson数据集上进行的所有实验中作者均采用这一组合方案。 Qualitative Analysis
作者通过在VisDrone2019-DET和TinyPerson数据集上可视化检测结果来对CFPT进行定性分析所有可视化的置信度阈值设置为0.3。如图8所示作者将CFPT应用于GFL并将其与 Baseline 模型即GFL和CEASC在VisDrone2019-DET数据集上进行定性比较。应用CFPT有效降低了模型的漏检率第一行和第三行和误检率第二行从而提升了整体性能。此外图8的第三行展示了CFPT在小目标检测方面的有效性。如图10所示在TinyPerson数据集上的检测结果进一步验证了上述解释表明CFPT在降低漏检和误检率的同时有效提升了模型对小目标的检测能力。 V Conclusion
在本论文中作者引入了CFPT这是一种新型的无需上采样的特征金字塔网络
CFPT能够明确更多地关注浅层特征图并摒弃基于静态核的交互方案以减轻尺度差异对模型性能的影响这使得它特别适合于航拍图像中的目标检测。
具体来说CFPT由两个精心设计的、具有线性计算复杂度的注意力模块组成分别为CCA和CSA。这两个模块从不同角度捕捉上下文信息它们的融合为模型提供了对检测小目标至关重要的全局上下文建模能力。
此外为了在跨层交互中增强位置感知作者提出了一种新的位置编码方法CCPE。在两个具有挑战性的航拍数据集上的大量实验表明CFPT在优于现有最先进的特征金字塔网络的同时也降低了计算成本。
在未来的工作中作者计划探索可变形的跨层交互解决方案并研究更有效的实现策略。 #DSCL
本文通过解耦训练目标来解决SCL的这两个问题将SCL中的原正样本和增强正样本解耦并针对不同目标来优化他们的关系从而减轻数据集不平衡的影响。北京大学提出解耦对比损失 监督对比损失SCL在视觉表征学习中很流行。但在长尾识别场景中由于每类样本数量不平衡对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能论文通过解耦训练目标来解决SCL的这两个问题将SCL中的原正样本和增强正样本解耦并针对不同目标来优化他们的关系从而减轻数据集不平衡的影响。论文进一步提出了一种基于块的自蒸馏方法将知识从头类转移到尾类以缓解尾类表征不足的问题。该方法挖掘不同实例之间共享的视觉模式并利用自蒸馏过程来传输此类知识 论文地址 https://arxiv.org/abs/2403.06151
论文代码 https://github.com/SY-Xuan/DSCL
Introduction
在实际应用中训练样本通常呈现长尾分布其中少数头类贡献了大部分观察结果而许多尾类仅与少数样本相关。长尾分布给视觉识别带来了两个挑战
为平衡数据集设计的损失函数很容易偏向头部类别。每个尾部类别包含的样本太少无法表示视觉差异导致尾部类别的代表性不足。
通过优化类内和类间距离监督对比损失SCL在平衡数据集上取得了很不错的性能。给定锚定图像SCL将两种正样本聚在一起即a由数据增强生成的锚定图像的不同视图以及b来自同一类的其他图像。这两种类型的正样本监督模型学习不同的表征a来自相同类别的图像强制学习语义线索而b通过外观差异增强的样本主要导致低级外观线索的学习。 如图 1a所示SCL有效地学习了头类的语义特征例如学习到的语义“蜜蜂”对于杂乱的背景具有鲁棒性。而如图 1 (b) 所示SCL学习的尾部类别表征对于形状、纹理和颜色等低级外观线索更具辨别力。
通过对SCL的梯度进行分析后论文提出了解耦监督对比损失DSCL来处理这个问题。具体来说DSCL解耦了两种正样本重新制定了类内距离的优化策略缓解了两种正样本的梯度不平衡。如在图 1b所示DSCL学习到的特征对语义线索具有区分性并且大大提高了尾部类别的检索性能。
为了进一步缓解长尾分布的挑战论文提出了基于图像块的自蒸馏PBSD利用头类来促进尾类中的表征学习。PBSD采用自蒸馏策略通过挖掘不同类之间的共享视觉模式并将知识从头类迁移到尾类更好地优化类间距离。论文引入块特征来表示目标的视觉模式计算块特征和实例级特征之间的相似度以挖掘共享视觉模式。如果实例与基于块特征共享视觉模式则它们将具有很高的相似性然后利用自蒸馏损失来维持样本之间的相似关系并将知识融入到训练中。
Analysis of SCL
后面的分析有点长总结起来论文发现了SCL的三个问题
过于关注头类的训练。原样本和增强样本之间的梯度存在差异。负样本可以更好地处理。
给定训练数据集 . , 其中 表示图像, 是其类标签。假设 表示 中 类的数量, 并且类的索引按数量降序排序, 即如果 $ab$, 则 $n^a \geq n^b$ 。在长尾识别中, 训练数据集是不平衡的, 即 $n^1 \gg n^k$, 不平衡比的计算为 n^k$ 。 p
对于图像分类任务, 算法旨在学习特征提取主干 和线性分类器, 先将图像 映射为全局特征图 并使用全局池化来获取 维特征向量, 随后将特征向量分为 维分类分数。通常来说, 测试数据集是平衡的。
特征提取主干一般采用监督对比学习SCL来训练。给定锚定图像 , 定义 为用主干和额外投影头 提取的归一化特征, 为正样本 通过数据增强生成的图片的归一化特征。定义 为可通过内存队列获取的一组样本特征, 为从 中抽取的 的正样本特征集。
SCL通过拉近锚定图像与其它正样本来减小类间距离同时通过将具有不同类别标签的图像推开来扩大类间距离即 其中 是 的数量。使用 来表示预定义的温度参数, 条件概率 的计算如下: 公式 1 可以表示为分布对齐任务 其中 是目标分布的概率。对于增强 和原 将它们同等地视为正样本并将其目标概率设置为 。对于 中其它具有不同类标签的图像SCL 将它们视为负样本并将其目标概率设置为 0 。
对于锚定图像 的特征 的梯度为: 其中 是 的负集, 包含从 中提取的特征。
SCL 包含两种类型的正样本 和 , 锚定图像对于两种正样本的梯度计算分别为: 训练开始时两种正样本的梯度L2范数之比为 当SCL收敛时的最优条件概率为 在 SCL 中, 内存队列 是从训练集中均匀采样的, 这导致 。在平衡数据集中, , 不同类别的 数量是平衡的。对于具有不平衡 的长尾数据集, SCL 则会更加关注将头部类的针点 与从 得到的特征拉在一起, 因为梯度由公式 4 中的第三项主导。 另外, SCL 还存在两种正样本的梯度的 L2 范数的比例不平衡的问题, 如图 2 所示。当 SC L 的训练收玫时, 的最优值也受到 的影响, 如公式 7 所示。此外, 如图 1(a) 和 (b) 所示, 跨类别学习到的特征也不一致。
等式 4 还表明SCL均匀地推开所有负样本从而扩大了类间距离。这种策略忽略了不同类别之间有价值的相似性线索。为了寻求更好的方法来优化类内和类间距离论文提出了解耦监督对比损失DSCL来解耦两种正样本以防止有偏差的优化以及基于补丁的自蒸馏PBSD来利用类之间的相似性线索。
Decoupled Supervised Contrastive Loss
DSCL的提出是为了确保不同类别的类内距离进行更平衡的优化将两种正样本解耦并添加不同的权重使梯度L2范数比和的最优值不受类别的样本数量影响。
DSCL可表示为 其中 是预定义的超参数。DSCL 是 SCL 在平衡环境和不平衡环境的统一范式。如果数据集是平衡的, 通过设置 可以使得 DSCL 与 SCL 相同。
训练开始时两种正样本的梯度L2范数比为 当 DSCL 收玫时, z 的最优条件概率为 。
如公式 10 可以看出两种正样本的梯度比不受 的影响。DSCL 也保证了 的最优值不受 的影响, 从而缓解了头部类和尾部类之间特征学习不一致的问题。
Patch-based Self Distillation 视觉模式可以在不同的类之间共享例如视觉模式“车轮”在“卡车”、“汽车”和“公共汽车”共享。因此尾类中的许多视觉特征也可以从共享这些视觉模式的头类中学习从而降低了尾类表征学习的难度。SCL将来自不同类的两个实例在特征空间中推开不管它们是否共享有意义的视觉模式。如图 4 所示从黄色边界框中提取查询块特征并从数据集中检索前 3 个相似样本。由w/o PBSD标记的SCL检索结果在语义上与查询块无关表明SCL在学习和利用图像块级语义线索方面无效。
受细粒度图像识别中基于图像块的方法的启发, 论文引入了基于图像块的特征来编码视觉模式。给定主干提取的图像 的全局特征图 , 首先随机生成块 , 其中 是块的数量。根据这些块的坐标应用 ROI 池化并将池化特征发送到投影头中, 得到归一化的嵌入特征 然后类似于公式 2 利用条件概率计算实例之间的相似关系 如果 对应的图像与基于块的特征共享视觉模式, 则 和 将具有很高的相似度。因此, 使用公式 12 可对每对实例之间的相似性线索进行编码。
基于上述定义, 将相似性线索作为知识来监督训练过程。为了保持这些知识, 论文还根据 额外从图像中裁剪多个图像块前面直接从整图的全局特征做 ROI, 这里剪图过网络并使用主干网络提取其特征嵌入 : PBSD强制图像块的特征嵌入通过以下损失产生与基于块的特征相同的相似度分布 请注意, 与计算图分离以阻止梯度。
物体的局部视觉模式可以由不同类共享, 因此可以使用基于块的特征来表示视觉模式。 是为了挖掘图像之间共享模式的关系而计算的, 通过最小化公式 14 来传递知识给 , 缓解尾类表征性不足的问题。图 4 所示的检索结果表明, PBSD 有效地加强了块级特征和图像块与图像相似性的学习, 使得挖掘不同类别的共享视觉模式成为可能。
Multi-crop技巧通常用于自监督学习中以生成更多锚图像的增强样本采用低分辨率截图以降低计算复杂性。与Multi-crop策略不同PBSD的动机是利用头类和尾类之间的共享模式来帮助尾类的学习通过ROI池化得到基于块的特征来获得共享模式。公式 14 执行自蒸馏以维持共享模式。论文通过用Multi-crop技巧代替PBSD进行了对比实验ImageNet-LT上的性能从 57.7% 下降到 56.1% 表明PBSD比Multi-crop策略更有效。
Training Pipeline 整体训练逻辑如图 3 所示为了维护内存队列使用动量更新模型。训练由两个损失来监督即解耦监督对比损失和基于块的自蒸馏损失 论文的方法专注于表征学习并且可以通过添加对应的损失来在不同的任务中使用。在主干训练之后丢弃学习的投影头 并使用标准交叉熵损失在预训练的主干之上基于类平衡抽样策略训练线性分类器。
Experiments #QuadMix
首个统一图像与视频的领域自适应语义分割框架QuadMix 刷新多项基准性能
本文提出首个统一图像与视频的无监督领域自适应语义分割框架 QuadMix通过四向混合机制和光流引导的时空聚合在四大基准上全面刷新 SOTA实现跨域、跨模态的泛化分割能力。
论文标题Unified Domain Adaptive Semantic Segmentation
第一作者张哲东北大学
通讯作者柴天佑、吴高昌
合作作者张敬、朱霞天、陶大程
合作单位东北大学、武汉大学、英国萨里大学、新加坡南洋理工大学
项目主页https://github.com/ZHE-SAPI/UDASS
视频demo: https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view
一、导语从无监督域适应任务挑战到统一突破
1.1任务背景
在语义分割领域无监督领域自适应Unsupervised Domain Adaptive Semantic SegmentationUDA-SS旨在将有标签的源域知识迁移到无标签的目标域。随着数据规模和多样性的迅速提升该任务日益重要。
目前主流研究集中于图像 UDA-SS而视频 UDA-SS 近年来也开始受到关注。然而两者的研究路径几乎完全割裂存在如下挑战
(a) 研究割裂图像与视频任务各自为政导致方法碎片化、认知零散
(b)方法难迁移图像方法无法有效迁移到视频视频方法无法泛化至图像
(c)知识利用低效两类任务间经验难以共享降低整体研究效率。
1.2核心突破
本文首次提出统一处理图像与视频UDA-SS的框架通过统一特征空间建模和统一训练路径有效解决上述割裂与低效问题。
为此我们设计了全新机制QuadMix四向混合构建连续、稳健、丰富的中间域表示从而大幅缩小跨域差异。并进一步引入光流引导的时空聚合模块用于细粒度特征的分布对齐。
统一不是简单地“通用化”而是一种深入语义建模的能力提升。QuadMix作为桥梁不仅使图像和视频任务共享表征基础更通过可扩展的路径结构有望实现跨模态、跨场景的泛化能力从而为未来多模态感知系统奠定了范式基础。 图 1. 相较于分别研究图像和视频的 无监督域适应语义分割UDA-SS我们提出了统一研究二者的研究框架。
二、方法详解从四向混合到时空对齐
我们将图像视为无时间依赖的视频特例提出统一建模图像与视频的视觉感知领域自适应语义分割新范式。
2.1 QuadMix首创四向混合机制跨域特征更稳定
我们在显式特征空间中同时引入以下四种混合路径
(a) S → S源域内部混合
(b) T → T目标域内部混合
(c) T → (S → S)目标域融合到源内部混合中
(d) S → (T → T)源域融合到目标内部混合中。
这种设计不仅打破了传统一阶/双向Mixup的限制更是首次在特征空间中引入交叉式路径结构最大限度地提升了域内连续性与语义对齐能力。实验表明四向混合路径在 t-SNE 可视化中呈现更紧致、更均衡的分布显著提升了迁移稳定性与泛化鲁棒性。 图 2. 不同领域混合范式的对比。与现有方法相比存在如域内不连续性特征泛化性差以及特征分布不一致问题我们提出的 QuadMix 方法在空间时间维度的像素级与特征级上同时对域内混合和跨域混合进行了泛化与增强。其中符号“*”表示样本模板。 图 3. 所提出的 QuadMix 用于 UDA-SS 的整体框架概览。图像领域自适应语义分割Image UDA-SS遵循一条并行流程唯一的区别在于不包含时间线索如图中虚线所示。
(i) 图 (a)QuadMix 包含四条全面的域内/跨域混合路径在时空像素层与特征层上桥接域间差异。像素级混合作用于相邻帧、光流和标签/伪标签旨在迭代生成两个增强的跨域中间域T→(S→S) 和 S→(T→T)。这些中间域克服了源域 S 与目标域 T 内部的非连续性并展现出更具泛化性的特征从而有效弥合域间差异。此外在 quad-mixed 域之间进行的特征级混合有助于缓解因不同视频上下文导致的特征不一致问题。
(ii) 图 (b)光流引导的时空特征聚合模块将跨域视频特征压缩至一个紧凑的类别感知空间中有效最小化类内差异并提升类间判别能力从而增强目标域的语义表征能力。
(iii) 整个训练过程是端到端的。在图 (c) 中目标域测试阶段需要输入相邻帧堆叠的序列和光流 。
2.2 类别感知Patch模板生成
QuadMix 的混合质量高度依赖于 Patch 模板的生成机制。为此我们创新性地引入“在线类别感知Patch模板”机制
(a)针对图像和视频分别提取语义一致的类别区域作为模板
(b)在每个训练迭代中自适应更新避免固定模板带来的标签漂移问题
(c)Patch模板不仅包含像素还包括伪标签和光流信息覆盖图像视频两个维度
这些模板为每个iteration中QuadMix 路径构建提供高质量输入确保跨域混合具备一致的语义表征。 图 4. 展示了在视频 UDA-SS 中QuadMix 的多种混合策略示例(a) 为源域 S 和目标域 T 的原始样本QuadMix 之前(b) 显示了源模板 S*如人物、骑手与目标模板 T*如交通标志、天空(c) 展示了域内混合路径 S→S 与 T→T 的结果(d) 展示了进一步的跨域混合路径 S→(T→T) 与 T→(S→S)即 QuadMix 后的结果。这些混合策略分别作用于视频帧、光流与标签/伪标签。需要特别说明的是每一轮训练中所需的 Patch 模板均通过在线机制根据前一轮n−1自适应生成。请放大查看细节。
2.3 像素级 特征级双层混合
输入级混合解决图像构成层次的差异特征级混合则进一步对语义表征层进行融合与对齐。
(a)输入级 QuadMix通过 Hadamard 运算叠加帧、标签与光流模板
(b)特征级 QuadMix构建共享类别掩码区域在特征图中动态拼接并共享表示
我们还使用轻量化的1x1卷积模块实现特征融合从而减少语义漂移区域提高模型鲁棒性并有效降低了计算成本。
三、时空聚合机制让视频特征对齐更加细粒度
与图像不同视频数据包含时序信息如何充分利用时间结构进行语义对齐是提升视频UDA性能的关键。
本文提出的“光流引导的时空聚合模块”围绕三个维度展开
3.1 光流引导的伪标签传播
(a)使用 ACCEL 网络结构获取光流
(b)将光流用于伪标签warp操作获得跨帧伪标签
(c)保证语义一致性与时序鲁棒性
该模块显著提高了伪标签在视频中的质量为后续聚合与对齐奠定基础。
3.2 类别感知的空间聚合
(a)按类别构建特征子空间
(b)对每类特征进行平均聚合获得“类别代表向量”
(c)使用该向量进行空间重构提升类别判别力
3.3 时间维度的信息聚合
(a)多帧空间聚合结果通过信息熵加权方式融合
(b)构建时序一致的语义表示
最终整个模块实现类别–空间–时间三重维度的精细化特征对齐为目标域提供了坚实的泛化支持。 图 5. 展示了用于领域对齐的光流引导时空特征聚合过程其中 t′ 表示前一时间步ω^T_{t′→t}表示目标帧的时间聚合权重。̄{t′→t} 表示从前一时间步 t′ 通过光流引导 warp 得到的帧特征其中 “→” 表示沿时间维度的 warp 方向。
四、实验验证全面评估四大数据集全面领先
我们在四个经典的 UDA-SS benchmark 上进行了严格验证涵盖图像与视频两大类任务 具体实验结果如下
4.1 视频域适应语义分割任务 4.2 图像域适应语义分割任务 在各种任务上我们的方法均显著超过现有 SOTA 方法如 DACS、ProDA、DAFormer、SAC、CMOM 等。其中最引人注目的是在 SYNTHIA-Seq → Cityscapes-Seq 视频迁移任务上我们使用 Vision Transformer 架构QuadMix ViT实现了 67.2 的 mIoU刷新历史最好结果领先前 SOTAPAT、TPL-SFC近 12 个百分点。此外在 GTAV → Cityscapes 图像迁移任务中QuadMix 实现 66.8 的 mIoU超过 DAFormer、SePiCo 等先进方法展现统一方法在图像上的强大适应能力。
4.3 消融实验 4.4 可视化结果分析 图 6. 来自 Cityscapes-Seq 验证集的三个连续帧的定性结果。结果展示顺序如下目标图像、真实标签、仅源域模型的语义分割结果、DA-VSN [16]、TPS [17]、CMOM [2] 以及本文提出的方法。我们的方法在分割精度上表现最佳边缘更平滑、细节更精细。请放大查看细节。
更多可视化结果请参考视频demo: https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view
4.5 特征空间分布TSNE分析 图 7. 展示了不同混合范式在 t-SNE 空间中的可视化效果分别以 sign第一行和 pole第二行两个类别为例。子图 (a) 到 (e) 的实验设置对应表 VI 中的消融实验编号Exp.ID 0*、ID 6、ID 1、ID 3 和 ID 12。请注意子图 (b)、(d) 和 (e) 中的点数相同。子图 (b) 展示的是域内混合intra-mixed后的特征嵌入呈现出较为连续的分布而子图 (e) 展示的 四向混合quad-mixed 域则表现出更具泛化性的特征分布而非聚集式的形式。这种分布更有效地缓解了域内不连续性问题并更好地实现知识迁移中的细粒度特征分布拉近。
五、理论支持 可复现性 工业可落地性
5.1 理论支撑
QuadMix 的有效性不仅体现在性能指标上还获得了充分的理论与可视化支撑
(a)使用 t-SNE 对比 QuadMix 与传统 Mixup 的特征分布发现 QuadMix 特征分布更均匀、类别边界更清晰
(b)通过类别交叉可视化展示 quad-mixed 域具备更强的语义一致性与边界准确性
5.2 可复现性
(a)所有实验已开源https://github.com/ZHE-SAPI/UDASS
(b)支持主流框架PyTorch和多种分割 backboneCNN/ViT
(c)训练脚本、预处理流程、模型参数均一键调用
5.3 工业部署潜力
由于 QuadMix 可以不依赖 offline warm-up 模型和固定伪标签生成器具备如下优势
(a)易于部署到边缘设备或实时视频处理系统
(b)可无缝集成至现有工业语义分割 pipeline
(c)支持城市感知、AR导航、智能制造等多种场景
六、未来研究从统一分割迈向跨模态感知新方向
我们认为统一研究视频和图像UDASS不是融合的终点而是跨模态泛化的起点。QuadMix 所提出的“四向混合”不仅服务于图像与视频的统一语义分割更提供了未来跨模态建模的结构性范式
(a)可推广至 图文融合Image-Text UDA、点云图像联合建模Multi-Sensor Fusion
(b)可用于 大模型预训练中的中间域设计如 Diffusion 模型数据生成优化
(c)甚至可拓展到 Reinforcement Learning 场景中的策略迁移与经验对齐
整体而言QuadMix 代表的是从数据空间结构建模出发构建统一泛化表示的全新路径。 #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx