东莞服饰网站建设哪家好,俄罗斯在线 网站制作,外国人做的甲骨文网站,广州做企业网站线性注意力将Softmax解耦为两个独立的函数#xff0c;从而能够将注意力的计算顺序从(querykey)value调整为query(keyvalue)#xff0c;使得总体的计算复杂度降低为线性。然而#xff0c;目前的线性注意力方法要么性能明显不如Softmax注意力#xff0c;并且可能涉及映射函数…线性注意力将Softmax解耦为两个独立的函数从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)使得总体的计算复杂度降低为线性。然而目前的线性注意力方法要么性能明显不如Softmax注意力并且可能涉及映射函数的额外计算开销
首先以往线性注意力模块的注意力权重分布相对平滑缺乏集中能力来处理最具信息量的特征。作为补救措施我们提出了一个简单的映射函数来调整查询和关键字的特征方向使注意权值更容易区分。其次我们注意到注意力矩阵的降低秩限制了线性注意力特征的多样性。提出了一个秩恢复模块通过对原始注意矩阵进行额外的深度卷积(DWC)有助于恢复矩阵秩并保持不同位置的输出特征多样化。
聚焦能力 先前的一些工作中指出在自注意力计算中Softmax提供了一种非线性的权重生成机制使得模型能够更好地聚焦于一些重要的特征。如下图所示本文基于DeiT-tiny模型给出了注意力权重分布的可视化结果。可以看到Softmax注意力能够产生较为集中、尖锐的注意力权重分布能够更好地聚焦于前景物体而线性注意力的分布则十分平均这使得输出的特征接近所有特征的平均值无法聚焦于更有信息量的特征。
Softmax Attention Linear Attention
线性注意力被认为是一种有效的替代方法它将计算复杂度从O(N2)限制到O(N)。具体来说引入精心设计的核函数作为原始相似函数的近似即 Focused Linear Attention
1、聚焦 2 、DWC 特征多样性
除聚焦能力外特征多样性也是限制线性注意力性能的一个因素。本文基于DeiT-tiny可视化了完整的注意力矩阵并计算了矩阵的秩将Softmax注意力与线性注意力进行对比。从图中可以看到Softmax注意力可以产生满秩的注意力矩阵这反映出模型提取到的特征具有多样性。然而线性注意力无法得到满秩的注意力矩阵这意味着不同行的权重之间存在冗余性。。 线性注意力矩阵的秩会被每个head的维度d和特征数量N中的较小者所限制 由于自注意力的输出是这些权重对同一组value加权组合得到的权重的同质化就必然会导致模型输出的多样性下降进而影响模型性能。