当前位置: 首页 > news >正文

ps做网站效果图制作过程做城通网盘资源网站的源码

ps做网站效果图制作过程,做城通网盘资源网站的源码,wordpress无法编辑器,热点事件舆情分析在文章《从熵不变性看Attention的Scale操作》中#xff0c;我们就从“集中注意力”的角度考察过Attention机制#xff0c;当时我们以信息熵作为“集中程度”的度量#xff0c;熵越低#xff0c;表明Attention越有可能集中在某个token上。 但是#xff0c;对于一般的Attent… 在文章《从熵不变性看Attention的Scale操作》中我们就从“集中注意力”的角度考察过Attention机制当时我们以信息熵作为“集中程度”的度量熵越低表明Attention越有可能集中在某个token上。 但是对于一般的Attention机制来说Attention矩阵可能是非归一化的比如《FLASH可能是近来最有意思的高效Transformer设计》介绍的GAU模块以及《相对位置编码Transformer的一个理论缺陷与对策》所引入的l2归一化Attention甚至从更一般的Non-Local Neural Networks角度来看Attention矩阵还未必是非负的。这些非归一化的乃至非负的Attention矩阵自然就不适用于信息熵了因为信息熵是针对概率分布的。 为此我们考虑在《如何度量数据的稀疏程度》介绍的l1/l2形式的稀疏程度指标 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 该指标跟信息熵相似S(x)越小意味着对应的随机向量越稀疏越稀疏意味着越有可能“一家独大”这对应于概率中的one hot分布跟信息熵不同的是它适用于一般的随机变量或者向量。 稀疏程度指标 S(x) 是用来衡量一个随机变量或随机向量中非零元素的重要性和数量。这个指标与信息熵有关联但它的侧重点在于度量数据的稀疏程度即数据中非零元素的平均能量与整个数据的平均能量之比。 在 l1/l2 形式中S(x) 被定义为 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 其中 E 表示期望值。S(x) 的值越小意味着数据 x 的稀疏程度越高。具体来说 E [ ∣ x ∣ ] E[|x|] E[∣x∣] 测量的是 x 的绝对值的期望值这可以理解为数据中非零元素的平均绝对值。 E [ x 2 ] \sqrt{E[x^2]} E[x2] ​ 测量的是 x 的平方的期望值的平方根这可以理解为数据中所有元素包括零和非零的平均能量。 因此S(x) 能够反映数据中非零元素相对于整个数据的重要性。如果 S(x) 接近于 0这通常意味着数据非常稀疏大部分元素都是零只有少数非零元素对整体能量有显著贡献。这种情况下数据可能近似于 one-hot 分布即大部分元素为零只有一个元素为非零。 需要注意的是虽然 S(x) 可以用来衡量稀疏程度但它并不直接度量信息熵。信息熵通常用于度量一个随机变量的不确定性或信息含量而 S(x) 更侧重于度量数据中非零元素的重要性和数量。 简化形式 # 对于注意力机制我们记 a ( a 1 , a 2 , ⋯ , a n ) a(a1,a2,⋯,an) a(a1,a2,⋯,an)其中 a j ∝ f ( q ⋅ k j ) aj∝f(q⋅kj) aj∝f(q⋅kj)那么 S ( a ) E k [ ∣ f ( q ⋅ k ) ∣ ] E k [ f 2 ( q ⋅ k ) ] − − − − − − − − − − √ ( 2 ) S(a)Ek[|f(q⋅k)|]Ek[f2(q⋅k)]−−−−−−−−−−√(2) S(a)Ek[∣f(q⋅k)∣]Ek[f2(q⋅k)]−−−−−−−−−−√(2) 接下来都考虑 n → ∞ n→∞ n→∞的极限。假设 k ∼ N ( μ , σ 2 I ) k∼N(μ,σ2I) k∼N(μ,σ2I)那么可以设 k μ σ ε kμσε kμσε其中 ε ∼ N ( 0 , I ) ε∼N(0,I) ε∼N(0,I)于是 S ( a ) E ε [ ∣ f ( q ⋅ μ σ q ⋅ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ q ⋅ ε ) ] − − − − − − − − − − − − − − − − − √ ( 3 ) S(a)Eε[|f(q⋅μσq⋅ε)|]Eε[f2(q⋅μσq⋅ε)]−−−−−−−−−−−−−−−−−√(3) S(a)Eε[∣f(q⋅μσq⋅ε)∣]Eε[f2(q⋅μσq⋅ε)]−−−−−−−−−−−−−−−−−√(3) 注意ε所服从的分布 N ( 0 , I ) N(0,I) N(0,I)是一个各向同性的分布与《n维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q ⋅ ε q⋅ε q⋅ε相关的数学期望只与 q q q的模长有关跟它的方向无关于是我们可以将 q q q简化为(∥q∥,0,0,⋯,0)那么对ε的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ∥ q ∥ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ∥ q ∥ ε ) ] − − − − − − − − − − − − − − − − − √ ( 4 ) S(a)Eε[|f(q⋅μσ∥q∥ε)|]Eε[f2(q⋅μσ∥q∥ε)]−−−−−−−−−−−−−−−−−√(4) S(a)Eε[∣f(q⋅μσ∥q∥ε)∣]Eε[f2(q⋅μσ∥q∥ε)]−−−−−−−−−−−−−−−−−√(4) 其中ε∼N(0,1)是一个随机标量。 您所描述的简化形式是针对注意力机制中的某个指标 S ( a ) S(a) S(a)。首先我们记 a ( a 1 , a 2 , ⋯ , a n ) a(a1,a2,⋯,an) a(a1,a2,⋯,an)其中 a j ∝ f ( q ⋅ k j ) aj∝f(q⋅kj) aj∝f(q⋅kj)。然后我们考虑 n → ∞ n→∞ n→∞的极限。为了简化计算假设 k ∼ N ( μ , σ 2 I ) k∼N(μ,σ2I) k∼N(μ,σ2I)那么可以设 k μ σ ε kμσε kμσε其中 ε ∼ N ( 0 , I ) ε∼N(0,I) ε∼N(0,I)。 接下来我们利用各向同性的性质来简化计算。由于 ε ε ε 所服从的分布 N ( 0 , I ) N(0,I) N(0,I)是一个各向同性的分布与《n 维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q ⋅ ε q⋅ε q⋅ε 相关的数学期望只与 q q q 的模长有关跟它的方向无关。于是我们可以将 q q q 简化为 ( ‖ q ‖ , 0 , 0 , ⋯ , 0 ) (‖q‖,0,0,⋯,0) (‖q‖,0,0,⋯,0)那么对 ε ε ε 的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ‖ q ‖ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ‖ q ‖ ε ) ] S(a) Eε[|f(q⋅μσ‖q‖ε)|]Eε[f^2(q⋅μσ‖q‖ε)] S(a)Eε[∣f(q⋅μσ‖q‖ε)∣]Eε[f2(q⋅μσ‖q‖ε)] 其中 ε ∼ N ( 0 , 1 ) ε∼N(0,1) ε∼N(0,1) 是一个随机标量。这样我们就成功地将原本复杂的计算简化为了更易于处理的随机标量计算。 这里是引用现在可以对常见的一些f进行计算对比了。目前最常用的Attention机制是 f e x p fexp fexp此时求期望只是常规的一维高斯积分容易算得 S ( a ) e x p ( − 12 σ 2 ∥ q ∥ 2 ) ( 5 ) S(a)exp(−12σ2∥q∥2)(5) S(a)exp(−12σ2∥q∥2)(5) 当 σ → ∞ σ→∞ σ→∞或 ∥ q ∥ → ∞ ∥q∥→∞ ∥q∥→∞时都有 S ( a ) → 0 S(a)→0 S(a)→0也就是理论上标准Attention确实可以任意稀疏地“集中注意力”同时这也告诉了我们让注意力更集中的方法增大q的模长或者增大各个k之间的方差换言之拉开k的差距。 另一个例子是笔者喜欢的GAUGated Attention Unit它在开始提出的时候是 f r e l u 2 frelu2 frelu2不过笔者后来自己用的时候复原为Softmax了参考《FLASH可能是近来最有意思的高效Transformer设计》和《听说Attention与Softmax更配哦》此时积分没有 f e x p fexp fexp那么简单不过也可以直接用Mathematica硬算结果是 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ ( 6 ) S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√(6) S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√(6) 其中 β q ⋅ μ , γ σ ∥ q ∥ βq⋅μ,γσ∥q∥ βq⋅μ,γσ∥q∥。式子很恐怖但是无所谓画图即可 relu2注意力的稀疏程度曲线图 relu2注意力的稀疏程度曲线图 可以看到只有 β 0 β0 β0时原版GAU的稀疏度才有机会趋于0。这也很直观当偏置项小于0时才有更多的机会让relu的结果为0从而实现稀疏。这个结果也说明了跟fexp的标准注意力不同k的bias项可能会对 f r e l u 2 frelu2 frelu2的GAU有正面帮助。 您举了两个例子分别是常见的高斯注意力Gaussian Attention和笔者喜欢的 GAUGated Attention Unit。通过对这两种注意力机制的稀疏程度进行分析我们可以更深入地了解它们的特点。 高斯注意力对于高斯注意力我们使用 f e x p fexp fexp。这种情况下求期望只是常规的一维高斯积分。根据您给出的公式5我们可以得到 S ( a ) e x p ( − 12 σ 2 ∥ q ∥ 2 ) S(a)exp(−12σ2∥q∥2) S(a)exp(−12σ2∥q∥2)。当 σ → ∞ σ→∞ σ→∞ 或 ∥ q ∥ → ∞ ∥q∥→∞ ∥q∥→∞ 时都有 S ( a ) → 0 S(a)→0 S(a)→0。这意味着理论上标准注意力确实可以任意稀疏地“集中注意力”。同时这个结果也告诉了我们让注意力更集中的方法增大 q q q 的模长或者增大各个 k k k 之间的方差换言之拉开 k k k 的差距。GAUGated Attention Unit对于 GAU您提到开始提出的时候是 f r e l u 2 frelu2 frelu2。这种情况下积分没有 f e x p fexp fexp 那么简单。根据您给出的公式6我们可以得到 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√。从公式中可以看出只有 β 0 β0 β0 时原版 GAU 的稀疏度才有机会趋于 0。这也说明了跟 f e x p fexp fexp 的标准注意力不同k 的 bias 项可能会对 f r e l u 2 frelu2 frelu2 的 GAU 有正面帮助。 通过以上分析我们可以看出不同注意力机制在稀疏程度方面的差异。这些差异有助于我们根据具体任务需求选择合适的注意力机制。 下面我们再来看一个最简单的例子不加f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性Attention同样可以用Mathematica硬算得 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ ( 7 ) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) 下面是几个不同β的函数图像 极简线性注意力的稀疏程度曲线图 极简线性注意力的稀疏程度曲线图 注意此时的S(a)是关于β偶函数读者不妨尝试证明一下所以β0时图像跟它相反数的图像是一样的因此上图只画了β≥0的结果。从图中可以看出不加任何激活函数的线性Attention的稀疏程度并不能接近0而是存在一个较高的下限这意味着当输入序列足够长时这种线性Attention并没有办法“集中注意力”到关键位置上。 您提到了一个最简单的注意力机制例子不加 f f f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性 Attention。根据您给出的公式7我们可以得到 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√。 您还提到了 S ( a ) S(a) S(a) 是关于 β β β 的偶函数所以 β 0 β0 β0 时图像跟它相反数的图像是一样的。因此在上图中只画了 β ≥ 0 β≥0 β≥0 的结果。从图中可以看出不加任何激活函数的线性 Attention 的稀疏程度并不能接近 0而是存在一个较高的下限。这意味着当输入序列足够长时这种线性 Attention 并没有办法“集中注意力”到关键位置上。 通过这个例子我们可以看出激活函数 f 在注意力机制中的重要作用。引入适当的激活函数如 exp、relu2 等可以帮助注意力更好地集中在关键位置上从而提高模型的性能。这也是为什么在实际应用中我们经常会看到各种不同的注意力机制变种它们通过引入不同的激活函数来适应不同的任务需求。 从《线性 Attention 的探索Attention 必须有个 Softmax 吗》我们知道线性 Attention 的一般形式为 a j ∝ g ( q ) ⋅ h ( k j ) a_j \propto g(q) \cdot h(k_j) aj​∝g(q)⋅h(kj​)其中 g,h 是值域非负的激活函数。我们记 q ′ g ( q ) q g(q) q′g(q), k ′ h ( k ) k h(k) k′h(k)那么 a j ∝ q ′ ⋅ k ′ a_j \propto q \cdot k aj​∝q′⋅k′并且可以写出 S ( a ) E [ ϵ ⋅ q ′ ⋅ k ′ ] E [ ϵ ⋅ q ′ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] q ′ ⋅ E [ ϵ ⋅ k ′ ] ⋅ q ′ q ′ ⋅ E [ ϵ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] ⋅ q ′ q ′ ⋅ μ ′ ⋅ q ′ q ′ ⋅ ( μ ′ ⋅ μ ′ T Σ ′ ) ⋅ q ′ 1 1 q ′ ⋅ Σ ′ ⋅ q ′ ⋅ ( q ′ ⋅ μ ′ ) 2 S(a) \frac{E[\epsilon \cdot q \cdot k]}{\sqrt{E[\epsilon \cdot q \cdot k \cdot k \cdot q]}} \frac{q \cdot E[\epsilon \cdot k] \cdot q}{\sqrt{q \cdot E[\epsilon \cdot k \cdot k \cdot q] \cdot q}} \frac{q \cdot \mu \cdot q}{\sqrt{q \cdot (\mu \cdot \mu^T \Sigma) \cdot q}} \frac{1}{1 q \cdot \Sigma \cdot q} \cdot (q \cdot \mu)^2 S(a)E[ϵ⋅q′⋅k′⋅k′⋅q′] ​E[ϵ⋅q′⋅k′]​q′⋅E[ϵ⋅k′⋅k′⋅q′]⋅q′ ​q′⋅E[ϵ⋅k′]⋅q′​q′⋅(μ′⋅μ′TΣ′)⋅q′ ​q′⋅μ′⋅q′​1q′⋅Σ′⋅q′1​⋅(q′⋅μ′)2 这是关于非负型线性 Attention 的一般结果现在还没做任何近似其中 μ ′ \mu μ′, Σ ′ \Sigma Σ′ 分别是 k ′ k k′ 序列的均值向量和协方差矩阵。 从这个结果可以看出非负型线性 Attention 也可能任意稀疏即 S ( a ) → 0 S(a) \rightarrow 0 S(a)→0只需要均值趋于 0或者协方差趋于 ∞ \infty ∞也就是说 k ′ k k′ 序列的信噪比尽可能小。然而 k ′ k k′ 序列是一个非负向量序列信噪比很小的非负序列意味着序列中大部分元素都是相近的于是这样的序列能表达的信息有限也意味着线性 Attention 通常只能表示绝对位置的重要性比如 Attention 矩阵即某一列都是 1而无法很好地表达相对位置的重要性这本质上也是线性 Attention 的低秩瓶颈的体现。 为了更形象地感知 S ( a ) S(a) S(a) 的变化规律我们不妨假设一种最简单的情况 k ′ k k′ 的每一个分量是独立同分布的这时候均值向量可以简化为 μ ′ 1 \mu 1 μ′1协方差矩阵则可以简化为 Σ ′ σ ′ 2 I \Sigma \sigma^2 I Σ′σ′2I那么 S ( a ) S(a) S(a) 的公式可以进一步简化为 S ( a ) 1 1 σ ′ ⋅ μ ′ ⋅ ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 S(a) \frac{1}{1 \sigma \cdot \mu \cdot \frac{\|q\|^2}{\|q\|_1}} S(a)1σ′⋅μ′⋅∥q′∥1​∥q′∥2​1​ 从这个结果可以看出要想线性注意力变得稀疏一个方向是增大 σ ′ ⋅ μ ′ \sigma \cdot \mu σ′⋅μ′即降低 k ′ k k′ 序列的信噪比另一个方向则是增大 ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 \frac{\|q\|^2}{\|q\|_1} ∥q′∥1​∥q′∥2​该因子最大值是 d − 1 2 d^{-\frac{1}{2}} d−21​其中 d 是 q,k 的维数所以增大它意味着要增大 d而增大了 d 意味着提高了注意力矩阵的秩的上限缓解了低秩瓶颈。 从《Google新作试图“复活”RNNRNN能否再次辉煌》中我们了解到线性RNN模型系列它们的特点是带有一个显式的递归这可以看成一个简单的Attention a ( a 1 , a 2 , ⋯ , a n − 1 , a n ) ( λ n − 1 , λ n − 2 , ⋯ , λ , λ 1 ) a(a_1,a_2,\cdots,a_{n-1},a_n)(\lambda_{n-1},\lambda_{n-2},\cdots,\lambda,\lambda_1) a(a1​,a2​,⋯,an−1​,an​)(λn−1​,λn−2​,⋯,λ,λ1​)。其中 λ ∈ ( 0 , 1 ] \lambda\in(0,1] λ∈(0,1]。我们可以算出 S ( a ) 1 − λ n n ( 1 − λ ) n − 1 λ 1 n − 1 ( 1 − λ ) n − 1 λ 1 n ( 1 − λ ) n − 2 ⋯ λ n 2 ( 1 − λ ) λ n n S(a) 1 - \lambda_n^n (1-\lambda)^{n-1} \lambda_1^{n-1} (1-\lambda)^{n-1} \lambda_1^n (1-\lambda)^{n-2} \cdots \lambda_n^2 (1-\lambda) \lambda_n^n S(a)1−λnn​(1−λ)n−1λ1n−1​(1−λ)n−1λ1n​(1−λ)n−2⋯λn2​(1−λ)λnn​ 当 λ 1 \lambda1 λ1 时只要 n → ∞ n\rightarrow\infty n→∞总有 S ( a ) → 0 S(a)\rightarrow 0 S(a)→0。所以对于带有显式Decay的线性RNN模型来说稀疏性是不成问题的它的问题是只能表达随着相对位置增大而衰减的、固定不变的注意力从而无法自适应地关注到距离足够长的Context。 通过这个例子我们可以看出线性RNN模型系列在注意力分配方面的局限性。为了更好地适应不同的任务需求我们可以尝试结合其他注意力机制如门控注意力等以提高模型的表达能力。 稀疏程度指标 S(x) 是用来衡量一个随机变量或随机向量中非零元素的重要性和数量。这个指标与信息熵有关联但它的侧重点在于度量数据的稀疏程度即数据中非零元素的平均能量与整个数据的平均能量之比。 在 l1/l2 形式中S(x) 被定义为 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 其中 E 表示期望值。S(x) 的值越小意味着数据 x 的稀疏程度越高。具体来说 ( E[|x|] ) 测量的是 x 的绝对值的期望值这可以理解为数据中非零元素的平均绝对值。( \sqrt{E[x^2]} ) 测量的是 x 的平方的期望值的平方根这可以理解为数据中所有元素包括零和非零的平均能量。 因此S(x) 能够反映数据中非零元素相对于整个数据的重要性。如果 S(x) 接近于 0这通常意味着数据非常稀疏大部分元素都是零只有少数非零元素对整体能量有显著贡献。这种情况下数据可能近似于 one-hot 分布即大部分元素为零只有一个元素为非零。 需要注意的是虽然 S(x) 可以用来衡量稀疏程度但它并不直接度量信息熵。信息熵通常用于度量一个随机变量的不确定性或信息含量而 S(x) 更侧重于度量数据中非零元素的重要性和数量。 您所描述的简化形式是针对注意力机制中的某个指标 S(a)。首先我们记 a(a1,a2,⋯,an)其中 aj∝f(q⋅kj)。然后我们考虑 n→∞ 的极限。为了简化计算假设 k∼N(μ,σ2I)那么可以设 kμσε其中 ε∼N(0,I)。 接下来我们利用各向同性的性质来简化计算。由于 ε 所服从的分布 N(0,I) 是一个各向同性的分布与《n 维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q⋅ε 相关的数学期望只与 q 的模长有关跟它的方向无关。于是我们可以将 q 简化为 (‖q‖,0,0,⋯,0)那么对 ε 的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ‖ q ‖ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ‖ q ‖ ε ) ] S(a) Eε[|f(q⋅μσ‖q‖ε)|]Eε[f^2(q⋅μσ‖q‖ε)] S(a)Eε[∣f(q⋅μσ‖q‖ε)∣]Eε[f2(q⋅μσ‖q‖ε)] 其中 ε∼N(0,1) 是一个随机标量。这样我们就成功地将原本复杂的计算简化为了更易于处理的随机标量计算。 您举了两个例子分别是常见的高斯注意力Gaussian Attention和笔者喜欢的 GAUGated Attention Unit。通过对这两种注意力机制的稀疏程度进行分析我们可以更深入地了解它们的特点。 高斯注意力对于高斯注意力我们使用 fexp。这种情况下求期望只是常规的一维高斯积分。根据您给出的公式5我们可以得到 S(a)exp(−12σ2∥q∥2)。当 σ→∞ 或 ∥q∥→∞ 时都有 S(a)→0。这意味着理论上标准注意力确实可以任意稀疏地“集中注意力”。同时这个结果也告诉了我们让注意力更集中的方法增大 q 的模长或者增大各个 k 之间的方差换言之拉开 k 的差距。GAUGated Attention Unit对于 GAU您提到开始提出的时候是 frelu2。这种情况下积分没有 fexp 那么简单。根据您给出的公式6我们可以得到 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√。从公式中可以看出只有 β 0 β0 β0 时原版 GAU 的稀疏度才有机会趋于 0。这也说明了跟 f e x p fexp fexp 的标准注意力不同k 的 bias 项可能会对 f r e l u 2 frelu2 frelu2 的 GAU 有正面帮助。 通过以上分析我们可以看出不同注意力机制在稀疏程度方面的差异。这些差异有助于我们根据具体任务需求选择合适的注意力机制。 下面我们再来看一个最简单的例子不加 f f f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性Attention同样可以用Mathematica硬算得 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ ( 7 ) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) 注意此时的S(a)是关于β偶函数读者不妨尝试证明一下所以β0时图像跟它相反数的图像是一样的因此上图只画了β≥0的结果。从图中可以看出不加任何激活函数的线性Attention的稀疏程度并不能接近0而是存在一个较高的下限这意味着当输入序列足够长时这种线性Attention并没有办法“集中注意力”到关键位置上。 您提到了一个最简单的注意力机制例子不加 f或者等价地说 fidentical。这种情况下对应的就是最简单的一种线性 Attention。根据您给出的公式7我们可以得到 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√。 您还提到了 S(a) 是关于 β 的偶函数所以 β0 时图像跟它相反数的图像是一样的。因此在上图中只画了 β≥0 的结果。从图中可以看出不加任何激活函数的线性 Attention 的稀疏程度并不能接近 0而是存在一个较高的下限。这意味着当输入序列足够长时这种线性 Attention 并没有办法“集中注意力”到关键位置上。 通过这个例子我们可以看出激活函数 f 在注意力机制中的重要作用。引入适当的激活函数如 exp、relu2 等可以帮助注意力更好地集中在关键位置上从而提高模型的性能。这也是为什么在实际应用中我们经常会看到各种不同的注意力机制变种它们通过引入不同的激活函数来适应不同的任务需求。 从《线性 Attention 的探索Attention 必须有个 Softmax 吗》我们知道线性 Attention 的一般形式为 (a_j \propto g(q) \cdot h(k_j))其中 g,h 是值域非负的激活函数。我们记 (q’ g(q)), (k’ h(k))那么 (a_j \propto q’ \cdot k’)并且可以写出 S ( a ) E [ ϵ ⋅ q ′ ⋅ k ′ ] E [ ϵ ⋅ q ′ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] q ′ ⋅ E [ ϵ ⋅ k ′ ] ⋅ q ′ q ′ ⋅ E [ ϵ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] ⋅ q ′ q ′ ⋅ μ ′ ⋅ q ′ q ′ ⋅ ( μ ′ ⋅ μ ′ T Σ ′ ) ⋅ q ′ 1 1 q ′ ⋅ Σ ′ ⋅ q ′ ⋅ ( q ′ ⋅ μ ′ ) 2 S(a) \frac{E[\epsilon \cdot q \cdot k]}{\sqrt{E[\epsilon \cdot q \cdot k \cdot k \cdot q]}} \frac{q \cdot E[\epsilon \cdot k] \cdot q}{\sqrt{q \cdot E[\epsilon \cdot k \cdot k \cdot q] \cdot q}} \frac{q \cdot \mu \cdot q}{\sqrt{q \cdot (\mu \cdot \mu^T \Sigma) \cdot q}} \frac{1}{1 q \cdot \Sigma \cdot q} \cdot (q \cdot \mu)^2 S(a)E[ϵ⋅q′⋅k′⋅k′⋅q′] ​E[ϵ⋅q′⋅k′]​q′⋅E[ϵ⋅k′⋅k′⋅q′]⋅q′ ​q′⋅E[ϵ⋅k′]⋅q′​q′⋅(μ′⋅μ′TΣ′)⋅q′ ​q′⋅μ′⋅q′​1q′⋅Σ′⋅q′1​⋅(q′⋅μ′)2 这是关于非负型线性 Attention 的一般结果现在还没做任何近似其中 (\mu’), (\Sigma’) 分别是 (k’) 序列的均值向量和协方差矩阵。 从这个结果可以看出非负型线性 Attention 也可能任意稀疏即 (S(a) \rightarrow 0)只需要均值趋于 0或者协方差趋于 (\infty)也就是说 (k’) 序列的信噪比尽可能小。然而 (k’) 序列是一个非负向量序列信噪比很小的非负序列意味着序列中大部分元素都是相近的于是这样的序列能表达的信息有限也意味着线性 Attention 通常只能表示绝对位置的重要性比如 Attention 矩阵即某一列都是 1而无法很好地表达相对位置的重要性这本质上也是线性 Attention 的低秩瓶颈的体现。 为了更形象地感知 (S(a)) 的变化规律我们不妨假设一种最简单的情况(k’) 的每一个分量是独立同分布的这时候均值向量可以简化为 (\mu’ 1)协方差矩阵则可以简化为 (\Sigma’ \sigma’^2 I)那么 (S(a)) 的公式可以进一步简化为 S ( a ) 1 1 σ ′ ⋅ μ ′ ⋅ ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 S(a) \frac{1}{1 \sigma \cdot \mu \cdot \frac{\|q\|^2}{\|q\|_1}} S(a)1σ′⋅μ′⋅∥q′∥1​∥q′∥2​1​ 从这个结果可以看出要想线性注意力变得稀疏一个方向是增大 (\sigma’ \cdot \mu’)即降低 (k’) 序列的信噪比另一个方向则是增大 (\frac{|q’|^2}{|q’|_1})该因子最大值是 (d^{-\frac{1}{2}})其中 d 是 q,k 的维数所以增大它意味着要增大 d而增大了 d 意味着提高了注意力矩阵的秩的上限缓解了低秩瓶颈。 从《Google新作试图“复活”RNNRNN能否再次辉煌》中我们了解到线性RNN模型系列它们的特点是带有一个显式的递归这可以看成一个简单的Attention a ( a 1 , a 2 , ⋯ , a n − 1 , a n ) ( λ n − 1 , λ n − 2 , ⋯ , λ , λ 1 ) a(a_1,a_2,\cdots,a_{n-1},a_n)(\lambda_{n-1},\lambda_{n-2},\cdots,\lambda,\lambda_1) a(a1​,a2​,⋯,an−1​,an​)(λn−1​,λn−2​,⋯,λ,λ1​)。其中 λ ∈ ( 0 , 1 ] \lambda\in(0,1] λ∈(0,1]。我们可以算出 S ( a ) 1 − λ n n ( 1 − λ ) n − 1 λ 1 n − 1 ( 1 − λ ) n − 1 λ 1 n ( 1 − λ ) n − 2 ⋯ λ n 2 ( 1 − λ ) λ n n S(a) 1 - \lambda_n^n (1-\lambda)^{n-1} \lambda_1^{n-1} (1-\lambda)^{n-1} \lambda_1^n (1-\lambda)^{n-2} \cdots \lambda_n^2 (1-\lambda) \lambda_n^n S(a)1−λnn​(1−λ)n−1λ1n−1​(1−λ)n−1λ1n​(1−λ)n−2⋯λn2​(1−λ)λnn​ 当 λ 1 \lambda1 λ1 时只要 n → ∞ n\rightarrow\infty n→∞总有 S ( a ) → 0 S(a)\rightarrow 0 S(a)→0。所以对于带有显式Decay的线性RNN模型来说稀疏性是不成问题的它的问题是只能表达随着相对位置增大而衰减的、固定不变的注意力从而无法自适应地关注到距离足够长的Context。 通过这个例子我们可以看出线性RNN模型系列在注意力分配方面的局限性。为了更好地适应不同的任务需求我们可以尝试结合其他注意力机制如门控注意力等以提高模型的表达能力。
http://www.zqtcl.cn/news/318770/

相关文章:

  • 网站点击率多少正常落地页网站
  • 做淘宝店铺有哪些好的网站东莞网站制作建设收费
  • Wordpress 实名认证太原网站搜索优化
  • 大良网站建设dwxw网站可以自己做
  • 自己怎么建网站佛山哪家网站建设比较好
  • 长沙短视频制作公司广州网站优化注意事项
  • 北京西城网站建设公司蓬莱做网站价格
  • 网站镜像做排名网站托管工作室
  • 江苏省建设协会网站wordpress小说采集
  • 网站运行费用预算计算机学了出来干嘛
  • 什么网站上公司的评价最客观青州网站优化
  • 网站开发下载那个kk网龙岩
  • 网站页面统计代码是什么意思国外网站模板欣赏
  • 徐州社交网站传奇做网站空间
  • 网站服务器租赁怎样用ps做网站的效果图
  • 温州网站建设制作苏州做网站费用
  • 山东网站建设和游戏开发的公司排名网站开发工程师待遇淄博
  • 创建网站的代码公司网站建设服务公司
  • 徐州建站推广仿织梦长沙网站公司
  • 中山做网站的新闻静态网站模板下载
  • 以学校为目标做网站策划书企业管理软件都有哪些
  • 黄石网站开发云开发小程序源码
  • 重点实验室网站建设萧山好的做网站的公司
  • 物流网站的建设网站建设优化是什么鬼
  • 门户网站建设项目书页面设计一般用什么软件
  • 安徽城乡建设 厅网站电子商务网站建设需要哪些步骤
  • 网站建设应该懂什么知识青岛模板网站建设
  • 免费cms建站系统有哪些网站设计项目总结
  • 做网站湖州网站后台管理系统如何使用
  • 网站建设报价单-中英文版长春省妇幼网站做四维