当前位置: 首页 > news >正文

网站建设7佛山seo优化排名

网站建设7,佛山seo优化排名,注册网站服务器,郑州手机软件开发transformer计算量 1 术语解释2 矩阵相乘FLOPs3 Transformer的FLOPs估计3.1 MultiHeadAttention3.1.1 Q,K,V计算3.1.2 attention计算3.1.3 MultiHeadAttention输出线性映射3.1.4 MultiHeadAttention总计算量 3.2 MLP3.3 projection输出3.3 计算量累计 1 术语解释 FLOPs#xf… transformer计算量 1 术语解释2 矩阵相乘FLOPs3 Transformer的FLOPs估计3.1 MultiHeadAttention3.1.1 Q,K,V计算3.1.2 attention计算3.1.3 MultiHeadAttention输出线性映射3.1.4 MultiHeadAttention总计算量 3.2 MLP3.3 projection输出3.3 计算量累计 1 术语解释 FLOPsFloating Point Operations浮点运算次数用来衡量模型计算复杂度常用来做神经网络模型速度的间接衡量标准。但该指标与实际模型速度并不一定正相关 MACs(Multiply–Accumulate Operations)乘加累积操作数1个MACs包含一个乘法操作与一个加法操作大约包含2FLOPs。通常MACs与FLOPs存在一个2倍的关系。 2 矩阵相乘FLOPs 对于 A 1 × n , B n × 1 A^{1×n},B^{n×1} A1×n,Bn×1两个矩阵相乘计算AB需要进行n次乘法和n次加法共计2n次浮点数运算 ,即2n的FLOPs对于 A m × n , B n × p A^{m×n},B^{n×p} Am×n,Bn×p两个矩阵相乘计算AB需要进行2nmp次浮点数运算。 3 Transformer的FLOPs估计 假设Transformer的输入每个词向量维度d_model(d) 词表大小为vocab_size(v)输入句子最大长度为src_max_len(s)batchsize为 batch(b)head头数为head(h)。 对于输入部分将输入句子分词并且词嵌入步骤没有计算量位置编码也没有计算量因此计算量主要集中在MultiHeadAttention、MLP、以及最后的投影计算。 3.1 MultiHeadAttention 3.1.1 Q,K,V计算 1个矩阵计算量对于输入I首先计算 Q I ∗ W q Q I * W^{q} QI∗Wq K I ∗ W k K I * W^{k} KI∗Wk V I ∗ W v V I * W^{v} VI∗Wv假设输入I的形状为 [b, s, d],1个矩阵乘法的输入和输出形状为[b, s, d] × [d, d] [b, s, d]计算量为 2 b s d 2 2bsd^{2} 2bsd23个矩阵计算量 6 b s d 2 6bsd^{2} 6bsd2 3.1.2 attention计算 Q K T QK^{T} QKT 矩阵乘法的输入形状[b, h, s, d] × [b, h, s, d]输出形状为 [b, h, s, s]h维度是concat没有计算量因此该步骤的计算量为 2 b s 2 d 2bs^{2}d 2bs2d 。 score*V加权 输入形状为[b, h, s, s] × [b, h, s, d]输出形状为[b, h, s, d] h维度是concat没有计算量因此该步骤的计算量为 2 b s 2 d 2bs^{2}d 2bs2d 。 3.1.3 MultiHeadAttention输出线性映射 所有head都concat输入形状为[b, s, d] × [d, d] ( W O ) (W^{O}) (WO)输出形状为[b, s, d]计算量 2 b s d 2 2bsd^{2} 2bsd2 3.1.4 MultiHeadAttention总计算量 MultiHeadAttention总计算量为上面三部分之和 2 b s 2 d 2bs^{2}d 2bs2d 2 b s 2 d 2bs^{2}d 2bs2d 2 b s d 2 2bsd^{2} 2bsd2 4 b s 2 d 4bs^{2}d 4bs2d 2 b s d 2 2bsd^{2} 2bsd2 3.2 MLP MLP内包含2个线性层 第一个线性层矩阵乘法输入形状为[b, s, d] × [d, 4d]输出形状为[b, s, 4d]计算量 8 b s d 2 8bsd^{2} 8bsd2 。第二个线性层矩阵乘法输入形状为[b, s, 4d] × [4d, d]输出形状为[b, s, d]计算量 8 b s d 2 8bsd^{2} 8bsd2 MLP总计算量为 8 b s d 2 8bsd^{2} 8bsd2 8 b s d 2 8bsd^{2} 8bsd2 16 b s d 2 16bsd^{2} 16bsd2 3.3 projection输出 logits的计算将隐藏向量映射为词表大小。矩阵乘法输入形状为[b, s, d] × [d, v]输出形状为[b, s, v]计算量 2 b s d v 2bsdv 2bsdv。 3.3 计算量累计 Transformer的encoder包含1个MultiHeadAttention1个MLPTransformer的decoder包含2个MultiHeadAttention1个MLPTransformer的输出为1个projection 将上面3部分累加计算量为 4 b s 2 d 4bs^{2}d 4bs2d 2 b s d 2 2bsd^{2} 2bsd2 16 b s d 2 16bsd^{2} 16bsd22* 4 b s 2 d 4bs^{2}d 4bs2d 2 b s d 2 2bsd^{2} 2bsd2 16 b s d 2 16bsd^{2} 16bsd2 2 b s d v 2bsdv 2bsdv 12 b s 2 d 12bs^{2}d 12bs2d 36 b s d 2 36bsd^{2} 36bsd2 2 b s d v 2bsdv 2bsdv
http://www.zqtcl.cn/news/43855/

相关文章:

  • 那个外贸网站做的好如何建设自己的网站 知乎
  • c2750服务器做网站行吗西宁网站设计
  • 宜兴建设局的网站房屋不动产查询官网
  • 心馨人生网站建设设计手机端网站制作教程
  • 苏州教育平台网站建设漳州市建设局网站混凝土公示
  • 国家城乡建设部投诉网站wordpress如何去除分类
  • 赣州网站网站建设做网站视频 上传到哪儿
  • 网站建设营销开场白温州生活网招聘信息
  • 可以在几个 网站备案谷歌应用商店下载
  • 网站做闪电电磁常熟网站制作找哪家好
  • 深圳市外贸网站建设多少钱广东圆心科技网站开发建站教程详解
  • 网站域名注册服务商百度文库小程序入口
  • 酷炫网站首页二维码生成器怎么使用
  • 网站 部署 域名注册一个公司需要花多少钱
  • 福建建设厅网站 资质免费asp网站模板带后台
  • 装修公司网站asp源码廊坊建设网站公司
  • 营销型网站一般有哪些内容网站设计方案要怎么写
  • 购物网站建设情况汇报海兴县网站建设公司
  • 网站推广赚钱吗织梦网站优化怎么做
  • 网站建设基础及流程wordpress 密码重置
  • 软件工程在网站建设营销型网站建设教程视频教程
  • 长沙微交易网站建设深圳效果好的免费网站建设
  • 上海企炬做的网站网站开发人员工资
  • 网站建设的探讨与研究免费资源源码网站
  • 网站开发人员职能响应式网站建设如何
  • 刚做的网站为什么百度搜不到做免费的网站教程
  • 徐闻网站建设公司北京装修公司网站建设
  • 湖州做网站的公司制作网站的技术
  • 怎么键卖东西的网站做竞价的网站做优化有效果吗
  • 广药网站建设试题大连 响应式网站制作