当前位置: 首页 > news >正文

工业贸易企业 营销型网站网站正在建设中怎么办

工业贸易企业 营销型网站,网站正在建设中怎么办,wordpress改变语言,抚顺网站推广context 1. 剪枝方案图释2. 正交矩阵Q 1. 剪枝方案图释 Fig. 1.1 剪枝方案 图中的阴影是表示丢弃掉这部分数据。通过引入正交矩阵 Q Q Q使 Q ⊤ Q Q Q ⊤ I \mathrm{Q}^\top\mathrm{Q}\mathrm{Q}\mathrm{Q}^\top\mathrm{I} Q⊤QQQ⊤I#xff0c;来大量缩减 X X X的列数和 W … context 1. 剪枝方案图释2. 正交矩阵Q 1. 剪枝方案图释 Fig. 1.1 剪枝方案 图中的阴影是表示丢弃掉这部分数据。通过引入正交矩阵 Q Q Q使 Q ⊤ Q Q Q ⊤ I \mathrm{Q}^\top\mathrm{Q}\mathrm{Q}\mathrm{Q}^\top\mathrm{I} Q⊤QQQ⊤I来大量缩减 X X X的列数和 W W W的行数。 由于 Q Q Q是正交矩阵有 ∥ Q x ∥ x ⊤ Q ⊤ Q x x ⊤ x ∥ x ∥ \|\mathbf{Q}x\|\sqrt{x^\top\mathbf{Q}^\top\mathbf{Q}x}\sqrt{x^\top x}\|x\| ∥Qx∥x⊤Q⊤Qx ​x⊤x ​∥x∥所以 Q Q Q与 x x x相乘不会影响 x x x的范数。 在一般情况下假设 X ℓ \mathbf{X}_{\ell} Xℓ​是transformer中一个块的输出在经过RMSNorm对每一行 x ← X ∣ ∣ X ∣ ∣ x\leftarrow \frac{\mathbf{X}}{\left|\left|\mathbf{X}\right|\right|} x←∣∣X∣∣X​处理然后 R M S N o r m ( X ℓ ) \mathrm{RMSNorm}(\mathbf{X}_{\ell}) RMSNorm(Xℓ​)作为下一块的输入。若引入矩阵 Q Q Q则有 R M S N o r m ( X ℓ ) R M S N o r m ( X ℓ Q ) Q ⊤ \mathrm{RMSNorm}(\mathbf{X}_\ell)\mathrm{RMSNorm}(\mathbf{X}_\ell\mathbf{Q})\mathbf{Q}^\top RMSNorm(Xℓ​)RMSNorm(Xℓ​Q)Q⊤所以实际上引入 Q Q Q不改变transformer的结构。对于transformer中的每一attention或FFN层都有线性层同时由于transformer中有残差连接图中的 ◯ \textcircled{} ◯​操作这里把矩阵 Q Q Q引入每一块的线性层所以需要把矩阵 Q Q Q引入到所有之前的层一直到编码阶段和所有之后的层一直到LM头。 令 W i n ℓ \mathbf{W}_{in}^\ell Winℓ​和 W o u t ℓ \mathbf{W}_{out}^\ell Woutℓ​为transformer的第 ℓ \ell ℓ块的线性层的权重矩阵 b i n ℓ \mathbf{b}_{in}^\ell binℓ​和 b o u t ℓ \mathbf{b}_{out}^\ell boutℓ​为相对应的偏置 W e m b d \mathbf{W}_{embd} Wembd​和 W h e a d \mathbf{W}_{head} Whead​为编码和头矩阵 Q Q Q为 D D D维矩阵则可以用以下矩阵来模型不变性变换 W ~ e m b d W e m b d Q , (1) b ~ o u t ℓ Q ⊤ b o u t ℓ , (4) W ~ i n ℓ Q ⊤ W i n ℓ , (2) W ~ h e a d Q ⊤ W h e a d . (5) W ~ o u t ℓ W o u t ℓ Q , (3) \begin{aligned}\tilde{\mathbf{W}}_{embd}\mathbf{W}_{embd}\mathbf{Q} ,\text{(1)}\tilde{b}_{out}^{\ell}\mathbf{Q}^{\top}b_{out}^{\ell} ,\text{(4)}\\\tilde{\mathbf{W}}_{in}^{\ell}\mathbf{Q}^{\top}\mathbf{W}_{in}^{\ell},\text{(2)}\tilde{\mathbf{W}}_{head}\mathbf{Q}^{\top}\mathbf{W}_{head} .\text{(5)}\\\tilde{\mathbf{W}}_{out}^{\ell}\mathbf{W}_{out}^{\ell}\mathbf{Q} ,\text{(3)}\end{aligned} W~embd​W~inℓ​W~outℓ​​Wembd​Q,Q⊤Winℓ​,Woutℓ​Q,​​(1)(2)(3)​​b~outℓ​Q⊤boutℓ​,W~head​Q⊤Whead​.​​(4)(5)​偏置矩阵保持不变 b ~ i n ℓ b i n ℓ , b ~ h e a d b h e a d \tilde{b}_{in}^{\ell}b_{in}^{\ell},\tilde{b}_{head}b_{head} b~inℓ​binℓ​,b~head​bhead​ 文章主题思想如图Fig. 1.2 Fig. 1.2 图解slicegpt三张图从左到右分别是a、b和c 图中(a)中的 W Q W_Q WQ​、 W K W_K WK​和 W V W_V WV​是注意力中的QKV操作 W V W_V WV​表示注意力机制的输出矩阵 M I − 1 D 1 1 ⊤ \mathbf{M}\mathbf{I}-\frac{1}{D}\mathbf{1}\mathbf{1}^{\top} MI−D1​11⊤是用来使矩阵 X X X中的每一个元素拉回到0上下与下一步的 x ← X ∣ ∣ X ∣ ∣ x\leftarrow \frac{\mathbf{X}}{\left|\left|\mathbf{X}\right|\right|} x←∣∣X∣∣X​共同完成归一化处理 W 1 W_1 W1​和 W 2 W_2 W2​是MLP操作。(b)与c中的 ( α ) (\alpha) (α)就是diag( α \alpha α)矩阵 ( α ′ ) (\alpha^{}) (α′)来自前一块。向量 α \alpha α和偏置 β \beta β在每个LayerNorm实例上独立学习。diag( α \alpha α)是一个矩阵操作表示将一个向量 ( α ) (\alpha) (α)作为对角线元素创建一个对角矩阵。 最后移除一些不重要的行和列。 2. 正交矩阵Q 使用主成分分析PCA来求解 Q ℓ Q_{\ell} Qℓ​transformer中第 ℓ \ell ℓ块在训练集中抽取一些数据作为校准数据喂给模型用来从前到后逐层提取正交矩阵。对于校准数据集中的 i i i条数据使模型中第 ℓ \ell ℓ层输出为 X ℓ , i X_{\ell,i} Xℓ,i​则有 C ℓ ∑ i X ℓ , i ⊤ X ℓ , i \mathrm{C}_{\ell}\sum_{i}\mathrm{X}_{\ell,i}^{\top}\mathrm{X}_{\ell,i} Cℓ​i∑​Xℓ,i⊤​Xℓ,i​则 Q ℓ Q_{\ell} Qℓ​是 C ℓ \mathrm{C}_{\ell} Cℓ​的降序排列特征值的特征矩阵。
http://www.zqtcl.cn/news/359719/

相关文章:

  • 鹧鸪哨网站1v1深度开发最吸引人的营销广告文案
  • 网站建设可以学吗如何修改wordpress的登录
  • 保定做网站的公司百度软件商店
  • 金华市金东区建设局网站wordpress好看的下载页面
  • 英文网站seo发展前景成都网站开发建设推广
  • p2p网贷网站建设方案制作网站专业公司吗
  • 益阳网站建设企业房地产市场最新动态
  • 关于公司网站改版通知jmr119色带
  • 城关区建设局网站珠海中英文网站建设
  • 长春哪家做网站便宜手机英语网站
  • 应城网站建设莱芜拉呱
  • 如何建立淘宝客网站HTML网站建设课程
  • 网站建设供需chrome不安全的网站设置
  • 网站dns修改中国楼市未来发展趋势
  • 网站超级链接怎么做帮别人发广告赚钱平台
  • 做网站可以赚钱么注册做网站的公司
  • 河南省建协网官方网站建网站卖阀门
  • 医院网站怎么制作重庆安全监督工程信息网
  • 饰品网站建设规划书搭建微信网站
  • 开发网站访问流量赚钱加盟网站需要怎么做
  • 装饰协会网站源码湖南省郴州市北湖区
  • 花都网站建设价格重庆市住房和城乡建设厅网站
  • 北京住总第一开发建设有限公司网站wordpress 网站访问认证页面
  • 网站制作的管理苏州百度推广服务中心
  • 厦门建行网站首页企业展厅建筑外观
  • 重庆定制型网站建设1000套网站源码
  • 阿里云网站建设服务费会计科目安平县建设局网站
  • 网上做国外兼职网站网络编程技术实验报告
  • iis网站服务器安全隐患分析创新的合肥网站建设
  • 蛋糕网站建设方案广州网站公司推荐