当前位置: 首页 > news >正文

哪个网站专门做政策解读合肥专业网站建设公司哪家好

哪个网站专门做政策解读,合肥专业网站建设公司哪家好,怎么建设网站,免费无线一 BERT_Base 110M参数拆解 BERT_base模型的110M的参数具体是如何组成的呢#xff0c;我们一起来计算一下#xff1a; 刚好也能更深入地了解一下Transformer Encoder模型的架构细节。 借助transformers模块查看一下模型的架构#xff1a; import torch from transformers …一 BERT_Base 110M参数拆解 BERT_base模型的110M的参数具体是如何组成的呢我们一起来计算一下 刚好也能更深入地了解一下Transformer Encoder模型的架构细节。 借助transformers模块查看一下模型的架构 import torch from transformers import BertTokenizer, BertModelbertModel BertModel.from_pretrained(bert-base-uncased, output_hidden_statesTrue, output_attentionsTrue) tokenizer BertTokenizer.from_pretrained(bert-base-uncased) for name,param in bertModel.named_parameters():print(name, param.shape) 得到的模型参数为 embeddings.word_embeddings.weight torch.Size([30522, 768]) embeddings.position_embeddings.weight torch.Size([512, 768]) embeddings.token_type_embeddings.weight torch.Size([2, 768]) embeddings.LayerNorm.weight torch.Size([768]) embeddings.LayerNorm.bias torch.Size([768])encoder.layer.0.attention.self.query.weight torch.Size([768, 768]) encoder.layer.0.attention.self.query.bias torch.Size([768]) encoder.layer.0.attention.self.key.weight torch.Size([768, 768]) encoder.layer.0.attention.self.key.bias torch.Size([768]) encoder.layer.0.attention.self.value.weight torch.Size([768, 768]) encoder.layer.0.attention.self.value.bias torch.Size([768])encoder.layer.0.attention.output.dense.weight torch.Size([768, 768]) encoder.layer.0.attention.output.dense.bias torch.Size([768]) encoder.layer.0.attention.output.LayerNorm.weight torch.Size([768]) encoder.layer.0.attention.output.LayerNorm.bias torch.Size([768])encoder.layer.0.intermediate.dense.weight torch.Size([3072, 768]) encoder.layer.0.intermediate.dense.bias torch.Size([3072]) encoder.layer.0.output.dense.weight torch.Size([768, 3072]) encoder.layer.0.output.dense.bias torch.Size([768]) encoder.layer.0.output.LayerNorm.weight torch.Size([768]) encoder.layer.0.output.LayerNorm.bias torch.Size([768])encoder.layer.11.attention.self.query.weight torch.Size([768, 768]) encoder.layer.11.attention.self.query.bias torch.Size([768]) encoder.layer.11.attention.self.key.weight torch.Size([768, 768]) encoder.layer.11.attention.self.key.bias torch.Size([768]) encoder.layer.11.attention.self.value.weight torch.Size([768, 768]) encoder.layer.11.attention.self.value.bias torch.Size([768]) encoder.layer.11.attention.output.dense.weight torch.Size([768, 768]) encoder.layer.11.attention.output.dense.bias torch.Size([768]) encoder.layer.11.attention.output.LayerNorm.weight torch.Size([768]) encoder.layer.11.attention.output.LayerNorm.bias torch.Size([768]) encoder.layer.11.intermediate.dense.weight torch.Size([3072, 768]) encoder.layer.11.intermediate.dense.bias torch.Size([3072]) encoder.layer.11.output.dense.weight torch.Size([768, 3072]) encoder.layer.11.output.dense.bias torch.Size([768]) encoder.layer.11.output.LayerNorm.weight torch.Size([768]) encoder.layer.11.output.LayerNorm.bias torch.Size([768])pooler.dense.weight torch.Size([768, 768]) pooler.dense.bias torch.Size([768]) 其中BERT模型的参数主要由三部分组成 Embedding层参数 Transformer Encoder层参数 LayerNorm层参数 二 Embedding层参数 由于词向量是由Token embeddingPosition embeddingSegment embedding三部分构成的因此embedding层的参数也包括以上三部分的参数。 BERT_base英文词表大小为30522 隐藏层hidden_size768文本最大长度seq_len 512 Token embedding参数量为30522 * 768 Position embedding参数量为512 * 768 Segment embedding参数量为2 * 768。 因此总的参数量为30522 512 2* 768 23,835,648 LN层在Embedding层 norm使用的是layer normalization每个维度有两个参数 768 * 2  1536 三 Transformer Encoder层参数 可以将该部分拆解成两部分Self-attention层参数、Feed-Forward Network层参数。 1.Self-attention层参数 改层主要是由Q、K、V三个矩阵运算组成BERT模型中是Multi-head多头的Self-attention(记为SA)机制。先通过Q和K矩阵运算并通过softmax变换得到对应的权重矩阵然后将权重矩阵与 V矩阵相乘最后将12个头得到的结果进行concat得到最终的SA层输出。 1. multi-head因为分成12份 单个head的参数是 768 * 768/12 * 3,  紧接着将多个head进行concat再进行变换此时W的大小是768 * 768 12个head就是  768 * 768/12 * 3 * 12   768 * 768  1,769,472 589,824  2359296 3. LN层在Self-attention层 norm使用的是layer normalization每个维度有两个参数 768 * 2  1536 2.Feed-Forward Network层参数 由FFN(x)max(0, xW1b1)W2b2可知前馈网络FFN主要由两个全连接层组成且W1和W2的形状分别是(768,3072)(3072,768)因此该层的参数量为 feed forward的参数主要由两个全连接层组成intermediate_size为3072(原文中4H长度) 那么参数为12*768*30723072*768 56623104 LN层在FFN层 norm使用的是layer normalization每个维度有两个参数 768 * 2  1536 layer normalization layer normalization有两个参数分别是gamma和beta。有三个地方用到了layer normalization分别是embedding层后、multi-head attention后、feed forward后这三部分的参数为768*212*(768*2768*2)38400 四 总结 综上BERT模型的参数总量为 23835648 12*2359296(28311552)    56623104   38400   108808704  ≈103.7M Embedding层约占参数总量的20%Transformer层约占参数总量的80%。 注本文介绍的参数仅是BERT模型的Transformer Encoder部分的参数涉及的bias由于参数很少本文也未计入。
http://www.zqtcl.cn/news/253945/

相关文章:

  • 番禺做网站哪家强合肥网页网站制作
  • 100个免费推广网站阜阳网站建设价格低
  • 广西茶叶学会 网站建设给人做网站能赚钱吗
  • 网站建设的发展目标西湖区住房和城乡建设局网站
  • 佛山市手机网站建设网页制作教程第三版赵丰年pdf
  • 做的好的装修公司网站网页制作搜题软件
  • 网站公告栏代码铁路建设标准网站
  • 网站设计工具更好的做网站禅城技术支持骏域网站建设
  • 百度商桥可以在两个网站放网站qq 微信分享怎么做的
  • 大学生网站建设开题报告秀山网站建设
  • 网站建设的实施方案网站建设基本标准
  • 做一个推广网站多少钱360导航网址
  • 在线网站建设哪家便宜wordpress 爬取
  • 移动端网站设计规范百度一下首页问问
  • 哪些网站怎么进广西玉林网站建设
  • 高端建站设计赶集网免费发布信息
  • 两题一做的网站响应式网站开发asp
  • 做网站直接开二级域名网站怎么收录到百度
  • 手机论坛网站源码西安网站建设-中国互联
  • 郑州网站建设策划方案丹阳建站推广管理
  • 电商网站用什么框架做广州网站建设公司奇亿网站建设
  • 营销策划网站专做品牌网站
  • 电脑托管宁波seo排名外包
  • 外汇网站模版网站开发和网站制作的区别
  • 学习网站建设的书籍我要做个网站该怎么做
  • h5互动网站建设网站制作的教程
  • 大连网站设计公司双语外贸网站源码
  • 广元网站建设工作室湖北省建设用地预审网站
  • 保定清苑城市建设网站公司网站建立费用
  • 厦门找一家做网站的公司家在深圳论坛