重庆seo网站排名优化,个人网站 空间,谷歌广告上海有限公司官网,wordpress 文档中心SG-Former: Self-guided Transformer with Evolving Token Reallocation 1. Introduction 方法的核心是利用显著性图#xff0c;根据每个区域的显著性重新分配tokens。显著性图是通过混合规模的自我关注来估计的#xff0c;并在训练过程中自我进化。直观地说#xff0c;我们…SG-Former: Self-guided Transformer with Evolving Token Reallocation 1. Introduction 方法的核心是利用显著性图根据每个区域的显著性重新分配tokens。显著性图是通过混合规模的自我关注来估计的并在训练过程中自我进化。直观地说我们将更多的tokens分配给显著区域以实现细粒度的关注而将更少的tokens分配到次要区域以换取效率和全局感受场。 2. Method hybrid-scale Transformer block提取混合尺度对象和多粒度信息指导区域重要性self-guided Transformer block根据混合尺度Transformer块的显著性信息在保持显著区域细粒度的同时对全局信息进行建模。
2.1 Self-Guided Attention 通过将几个tokens合并为一个token聚合来减少序列长度这种减少注意力计算的聚合方法面临两个问题i信息可能在显著区域丢失或与不相关的信息混合ii在次要区域或背景区域许多标记序列的较高比例对于简单语义是冗余的同时需要大量计算。
输入特征图映射为Q、K、V
然后H个相互独立的自注意力头平行的计算自注意力为了计算注意力后保持特征图大小不变的同时降低计算成本使用重要性引导聚合模块IAM固定Q的长度但聚合K和V的tokens。 其中是significance map。将S的值生序排列分为n个子区域。s1是最不重要的Sn是最重要的。r是聚合率每r个tokens聚合在一起。在不同重要性的区域设置了不同的聚合率r1··rn使得每个子区域都有一个聚合率并且子区域越重要聚合率越小。
IAM的目标是在显著区域将更少的令牌聚合为一即保留更多在背景区域将更多的令牌聚合成一即保留更少。
然后 F是聚合函数。 2.2 Hybrid-scale Attention H个heads分成h组每组H/h个heads。
将聚合成一个Q不聚合这样A和KV的数量不一样了然后将QKV分窗口窗口大小MQ和KV数量不一样所以Q的窗口大小是 计算注意力 计算significance map 3 实验结果 反正现在试的这个模型比VIT快很多计算量也少很多但是不知道效果实验结果还没出来。