营销网站建设多少钱,网站建设文献翻译,为什么要建设双端网站,网站建设方案ppt 枫子科技Transformer自注意力机制中除以 d k \sqrt{d_k} dk 深度剖析
【 Transformer 系列#xff0c;故事从 d k \sqrt{d_k} dk 说起】 LLM这么火#xff0c;Transformer厥功甚伟#xff0c;某天心血来潮~#xff0c;再去看看#xff01; 它长这个样子#xff1a; 深入…
Transformer自注意力机制中除以 d k \sqrt{d_k} dk 深度剖析
【 Transformer 系列故事从 d k \sqrt{d_k} dk 说起】 LLM这么火Transformer厥功甚伟某天心血来潮~再去看看 它长这个样子 深入浅出 Transformer 看完后想起了老生常谈 d k \sqrt{d_k} dk 问题必须一探究竟Transformer 中缩放点积注意力机制探讨除以根号 dk 理由及其影响 感觉不够清楚还是再Review下考研概率论有了基于考研概率论知识解读 Transformer为何自注意力机制要除以根号 dk中间会涉及初始化、标准化、Sofrmax函数于是继续 【初始化相关】深度学习中的常见初始化方法原理、应用与比较 【标准化系列】 数据为什么要进行标准化Z-标准化的神奇蜕变带出了关联知识点: 深度 “炼丹” 术之 Batch Normalization 与 Z - 标准化开启数据的神秘转换 【Softmax复习】Softmax 层反向传播梯度计算实例解析中间想到了经常配套使用的交叉熵于是梳理了交叉熵的前世今生 KL 散度多维度解读概率分布间的隐秘 “距离” 熵与交叉熵从不确定性角度理解 KL 散度 机器学习、深度学习关于熵你所需要知道的一切 摘要
本文深入探讨了Transformer自注意力机制中除以 d k \sqrt{d_k} dk 这一关键操作的原因。通过详细的推导过程揭示 d k \sqrt{d_k} dk 的来源并结合Softmax函数的特性分析不除以 d k \sqrt{d_k} dk 以及除以结果偏离 d k \sqrt{d_k} dk 时对模型造成的后果及其内在原因旨在为理解Transformer的工作原理提供全面且深入的视角。
引言
Transformer架构在自然语言处理及其他诸多领域取得了巨大成功其自注意力机制是核心创新点之一。在自注意力机制的计算过程中除以 d k \sqrt{d_k} dk 其中 d k d_k dk是键Key向量的维度这一操作对模型的稳定性和性能起着至关重要的作用本文结合考研中的概率知识对除以 d k \sqrt{d_k} dk 进行理解。 一、考研概率论内容复习
在Transformer自注意力机制中关于方差推导主要用到了以下考研概率知识 期望与方差的基本定义及性质 期望期望 E ( X ) E(X) E(X) 表示随机变量 X X X 取值的平均水平。方差方差 V a r ( X ) E [ ( X − E ( X ) ) 2 ] E [ X 2 ] − ( E [ X ] ) 2 Var(X)E[(X - E(X))^2]E[X^2]-(E[X])^2 Var(X)E[(X−E(X))2]E[X2]−(E[X])2用于衡量随机变量取值的离散程度。 独立随机变量的性质 若 X X X 和 Y Y Y 是两个独立的随机变量则 E [ X Y ] E [ X ] E [ Y ] E[XY]E[X]E[Y] E[XY]E[X]E[Y] 。对于独立随机变量 X X X 和 Y Y Y V a r ( X Y ) E [ X 2 ] E [ Y 2 ] − ( E [ X ] E [ Y ] ) 2 Var(XY)E[X^2]E[Y^2]-(E[X]E[Y])^2 Var(XY)E[X2]E[Y2]−(E[X]E[Y])2 。若 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 相互独立那么 V a r ( ∑ i 1 n X i ) ∑ i 1 n V a r ( X i ) Var(\sum_{i 1}^{n}X_i)\sum_{i 1}^{n}Var(X_i) Var(∑i1nXi)∑i1nVar(Xi) 。 随机变量的分布 假设随机变量 q i q_i qi 和 k i k_i ki 独立同分布简化了分析过程使得可以基于相同的分布特性对所有变量进行统一处理。
二、选择除以 d k \sqrt{d_k} dk 的原因
1. 稳定方差
在自注意力机制中计算注意力分数时涉及查询Query向量与键Key向量的点积。假设Query向量 Q Q Q和Key向量 K K K的元素是独立同分布的随机变量均值为0方差为1实际模型参数随机初始化时接近此假设。对于长度为 d k d_k dk的向量 Q ( q 1 , q 2 , ⋯ , q d k ) Q(q_1,q_2,\cdots,q_{d_k}) Q(q1,q2,⋯,qdk)和 K ( k 1 , k 2 , ⋯ , k d k ) K(k_1,k_2,\cdots,k_{d_k}) K(k1,k2,⋯,kdk)它们的点积 S ∑ i 1 d k q i k i S \sum_{i 1}^{d_k}q_ik_i Si1∑dkqiki
根据方差性质 V a r ( S ) ∑ i 1 d k V a r ( q i k i ) Var(S)\sum_{i 1}^{d_k}Var(q_ik_i) Var(S)i1∑dkVar(qiki)由于 q i q_i qi和 k i k_i ki相互独立 V a r ( q i k i ) E [ q i 2 ] E [ k i 2 ] − ( E [ q i ] E [ q i ] ) 2 Var(q_ik_i)E[q_i^2]E[k_i^2]-(E[q_i]E[q_i])^2 Var(qiki)E[qi2]E[ki2]−(E[qi]E[qi])2已知 E [ q i ] E [ k i ] 0 E[q_i]E[k_i]0 E[qi]E[ki]0 V a r ( q i ) V a r ( k i ) 1 Var(q_i)Var(k_i)1 Var(qi)Var(ki)1则 E [ q i 2 ] E [ k i 2 ] 1 E[q_i^2]E[k_i^2]1 E[qi2]E[ki2]1所以 V a r ( q i k i ) 1 Var(q_ik_i)1 Var(qiki)1进而 V a r ( S ) d k Var(S)d_k Var(S)dk
这表明点积 S S S的方差随维度 d k d_k dk增大而线性增大。为使点积结果方差稳定除以 d k \sqrt{d_k} dk 即新变量 S ′ S d k S\frac{S}{\sqrt{d_k}} S′dk S的方差 V a r ( S ′ ) 1 d k V a r ( S ) 1 Var(S) \frac{1}{d_k}Var(S)1 Var(S′)dk1Var(S)1稳定的方差有助于后续Softmax函数输入处于合理范围避免其输出概率分布过于极端保证模型训练稳定性。
2. 平衡维度影响
除以 d k \sqrt{d_k} dk 可视为一种归一化操作有助于平衡不同维度特征在注意力计算中的贡献。若不进行此缩放高维度向量在点积运算中可能占据主导使模型过度关注某些维度信息忽略其他维度。通过除以 d k \sqrt{d_k} dk 不同维度影响更均衡模型能全面考虑序列元素关系。
三、 d k \sqrt{d_k} dk 的来源推导
如前文所述基于随机向量点积方差分析。设 Q Q Q和 K K K向量元素为独立同分布随机变量均值为0方差为1。点积 S ∑ i 1 d k q i k i S \sum_{i 1}^{d_k}q_ik_i Si1∑dkqiki其方差 V a r ( S ) d k Var(S)d_k Var(S)dk。
为将点积结果方差稳定在1附近需对其归一化。自然的想法是除以与方差相关量即除以 V a r ( S ) \sqrt{Var(S)} Var(S) 也就是 d k \sqrt{d_k} dk 。这样处理后点积结果的方差得以稳定为后续Softmax函数提供合适输入。
四、不恰当缩放的后果
1. 不除以 d k \sqrt{d_k} dk
若不除以 d k \sqrt{d_k} dk 随着 d k d_k dk增大点积结果方差增大。输入到Softmax函数的数值方差过大会使Softmax输出概率分布极其不均匀大部分概率集中在少数较大数值对应元素上。
在反向传播中这种不均匀分布导致梯度问题。一方面概率接近0的元素对应梯度极小在反向传播中对梯度贡献可忽略不计多个此类元素累积使得梯度消失模型参数更新缓慢甚至停滞。另一方面概率接近1的元素对应梯度可能极大在反向传播中累积导致梯度爆炸使模型参数更新幅度过大无法收敛。
2. 除以结果大于 d k \sqrt{d_k} dk
若除以大于 d k \sqrt{d_k} dk 的值如 α d k \alpha\sqrt{d_k} αdk α 1 \alpha 1 α1会过度缩放点积结果。这使得Softmax函数输入数值范围变小输出概率分布相对均匀各元素概率差异不明显。
在这种情况下模型难以区分不同元素重要性无法有效捕捉序列中关键信息导致模型性能下降。因为自注意力机制依赖概率分布差异来聚焦重要信息过于均匀分布削弱了这种聚焦能力。
3. 除以结果小于 d k \sqrt{d_k} dk
若除以小于 d k \sqrt{d_k} dk 的值如 β d k \beta\sqrt{d_k} βdk 0 β 1 0 \beta 1 0β1点积结果缩放不足方差仍较大。Softmax函数输入数值方差大输出概率分布仍会过度集中类似不除以 d k \sqrt{d_k} dk 的情况导致梯度消失或爆炸问题阻碍模型正常训练。
五、结论
在Transformer自注意力机制中除以 d k \sqrt{d_k} dk 是经过精心设计的关键操作。它源于对随机向量点积方差的理论分析旨在稳定方差、平衡维度影响。不恰当的缩放无论是不除以 d k \sqrt{d_k} dk 还是除以结果偏离 d k \sqrt{d_k} dk 都会因Softmax函数特性引发梯度问题或信息捕捉能力下降严重影响模型性能。理解这一操作的原理和影响对于深入理解Transformer架构及优化相关模型具有重要意义。