当前位置: 首页 > news >正文

网站排名掉了该怎么做枫泾网站建设

网站排名掉了该怎么做,枫泾网站建设,做淘宝差不多的网站,手机淘宝网页Qwen2-MOE-57B-A14B模型结构解读 模型代码文件下载 该模型总的参数为57B#xff0c;激活参数为14B#xff0c;推理速度比32B的快#xff0c;而且性能更好。 Qwen2-MOE-57B-A14B模型总体结构 class transformers.models.qwen2_moe.modeling_qwen2_moe.Qwen2MoeForCaus… Qwen2-MOE-57B-A14B模型结构解读 模型代码文件下载 该模型总的参数为57B激活参数为14B推理速度比32B的快而且性能更好。 Qwen2-MOE-57B-A14B模型总体结构 class transformers.models.qwen2_moe.modeling_qwen2_moe.Qwen2MoeForCausalLM Qwen2MoeForCausalLM((model): Qwen2MoeModel((embed_tokens): Embedding(151936, 3584)(layers): ModuleList((0-27): 28 x Qwen2MoeDecoderLayer((self_attn): Qwen2MoeSdpaAttention((q_proj): Linear(in_features3584, out_features3584, biasTrue)(k_proj): Linear(in_features3584, out_features512, biasTrue)(v_proj): Linear(in_features3584, out_features512, biasTrue)(o_proj): Linear(in_features3584, out_features3584, biasFalse)(rotary_emb): Qwen2MoeRotaryEmbedding())(mlp): Qwen2MoeSparseMoeBlock((gate): Linear(in_features3584, out_features64, biasFalse)(experts): ModuleList((0-63): 64 x Qwen2MoeMLP((gate_proj): Linear(in_features3584, out_features2560, biasFalse)(up_proj): Linear(in_features3584, out_features2560, biasFalse)(down_proj): Linear(in_features2560, out_features3584, biasFalse)(act_fn): SiLU()))(shared_expert): Qwen2MoeMLP((gate_proj): Linear(in_features3584, out_features20480, biasFalse)(up_proj): Linear(in_features3584, out_features20480, biasFalse)(down_proj): Linear(in_features20480, out_features3584, biasFalse)(act_fn): SiLU())(shared_expert_gate): Linear(in_features3584, out_features1, biasFalse))(input_layernorm): Qwen2MoeRMSNorm()(post_attention_layernorm): Qwen2MoeRMSNorm()))(norm): Qwen2MoeRMSNorm())(lm_head): Linear(in_features3584, out_features151936, biasFalse) )Qwen2-MOE-57B-A14B模型详细结构下面是从输入到输出的顺序输出的每层的参数量 #输入的Embedding层 model.embed_tokens.weight: torch.Size([151936, 3584]) #主体的layer层model.layers.0是第一层共有28层 #下面是model.layers.0的attention层 model.layers.0.self_attn.q_proj.weight: torch.Size([3584, 3584]) model.layers.0.self_attn.q_proj.bias: torch.Size([3584]) model.layers.0.self_attn.k_proj.weight: torch.Size([512, 3584]) model.layers.0.self_attn.k_proj.bias: torch.Size([512]) model.layers.0.self_attn.v_proj.weight: torch.Size([512, 3584]) model.layers.0.self_attn.v_proj.bias: torch.Size([512]) model.layers.0.self_attn.o_proj.weight: torch.Size([3584, 3584]) model.layers.0.mlp.gate.weight: torch.Size([64, 3584])#下面是model.layers.0的moe结构的mlp层 model.layers.0.mlp.experts.0.gate_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.0.up_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.0.down_proj.weight: torch.Size([3584, 2560]) model.layers.0.mlp.experts.1.gate_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.1.up_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.1.down_proj.weight: torch.Size([3584, 2560]) model.layers.0.mlp.experts.2.gate_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.2.up_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.2.down_proj.weight: torch.Size([3584, 2560])...有64个model.layers.0.mlp.experts层这里省略model.layers.0.mlp.experts.3----model.layers.0.mlp.experts.62model.layers.0.mlp.experts.63.gate_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.63.up_proj.weight: torch.Size([2560, 3584]) model.layers.0.mlp.experts.63.down_proj.weight: torch.Size([3584, 2560])#下面是model.layers.0的shared moe结构的mlp层 model.layers.0.mlp.shared_expert.gate_proj.weight: torch.Size([20480, 3584]) model.layers.0.mlp.shared_expert.up_proj.weight: torch.Size([20480, 3584]) model.layers.0.mlp.shared_expert.down_proj.weight: torch.Size([3584, 20480]) model.layers.0.mlp.shared_expert_gate.weight: torch.Size([1, 3584])#下面是是model.layers.0的Qwen2MoeRMSNorm层 model.layers.0.input_layernorm.weight: torch.Size([3584]) model.layers.0.post_attention_layernorm.weight: torch.Size([3584])...这里省略model.layers.1---model.layers.27它们的结构与model.layers.0一样#下面是马上要输出前的归一化norm层 model.norm.weight: torch.Size([3584])#下面是输出到最后的151936个token概率分布的mlp层 lm_head.weight: torch.Size([151936, 3584])
http://www.zqtcl.cn/news/745958/

相关文章:

  • 可以下载源程序的网站.htaccess wordpress
  • 国内优秀设计网站小程序推广方案
  • 网站构建是什么意思怎么做网站盗号
  • 学校网站建设行业现状wordpress怎么保存图片
  • 网站 框架网页建设title:(网站建设)
  • 素材网站推广方案安卓端开发
  • 网站制作可以询价么168推广
  • 河南城乡和住房建设厅网站网络营销的主要特点有哪些
  • 哪些网站可以做自媒体wordpress 左侧
  • joomla! 1.5 网站建设基础教程丹阳网站推广
  • 中国建设银行山东省分行网站怎么做网站制作
  • 网站前台设计方案自助建站一般适用于大型电子商务网站建设
  • 建设银行不良资产处置网站wordpress啥时候出现的
  • 出口贸易网站网站建设及解决方案
  • 网站服务器要求做网站需要的服务器
  • 网站后台 编辑器 调用网站优化搜索排名
  • 汽车网站建设规划书网站首页版式
  • 国外网站推广方法wnmp 搭建WordPress
  • 网站建设流程 文档企业网上办事大厅
  • .net怎么做网站域名备案注销流程
  • 检测网站建设网站搭建注意事项
  • 河北建设工程信息网站网站的建设要多少钱
  • 玉林住房和城乡建设局网站官网google广告在wordpress
  • 海淀网站建设公司wordpress 招聘网站模板
  • 手机网站在哪里找到网上能免费做网站发布叼
  • 网站设置英文怎么说广州优质网站建设案例
  • 外贸怎样做网站临汾花果街网站建设
  • 专业集团门户网站建设方案南昌医院网站建设
  • 用php做美食网站有哪些新建网站如何做关键词
  • 企业网站建设招标微信公众平台官网登录入口网页版