当前位置: 首页 > news >正文

做贸易要看什么网站昆明公司做网站的价格

做贸易要看什么网站,昆明公司做网站的价格,南京企业网站,河南做酒店网络系统网站基础NLP知识… 线性变换 通过一个线性变换将隐藏状态映射到另一个维度空间#xff0c;以获得预期维度的向量 $ outputs hidden_layer * W b$ 这里的W是权重矩阵#xff0c;b是偏置项#xff0c;它们是线性变换的参数#xff0c;通过训练数据学习得到。输出向量的维度…基础NLP知识… 线性变换 通过一个线性变换将隐藏状态映射到另一个维度空间以获得预期维度的向量 $ outputs hidden_layer * W b$ 这里的W是权重矩阵b是偏置项它们是线性变换的参数通过训练数据学习得到。输出向量的维度由W的形状决定如果我们想要得到一个维度为dim的多分类向量那么W的形状应该是(hidden_state_size, dim)。 为了引入非线性可能会在线性变换后应用一个激活函数如Softmax。对于多分类问题Softmax激活函数特别有用因为它可以将输出向量转换为概率分布 $ probabilities F.softmax(output, dim-1)$ 标准化和归一化都是为了数据缩放 标准化标准化缩放数据集为均值为0标准化差为1$x_{new} \frac{(x_i-\mu)}{\sigma} $, μ \mu μ是均值 σ \sigma σ是标准差 归一化让每个元素落在0~1之间 x n e w ( x i − x m i n ) ( x m a x − x m i n ) x_{new}\frac{(x_i-x_{min})}{(x_{max}-x_{min})} xnew​(xmax​−xmin​)(xi​−xmin​)​ BERT 在BERTBidirectional Encoder Representations from Transformers模型中[CLS]是一个特殊的标记token其全称为“classification token”。它主要用于分类任务中作为整个输入序列的表示。[CLS]标记对应的最终隐藏状态被用作整个输入序列的聚合表示。在进行分类任务时[CLS]所在位置的输出会被用来做最终的分类决策。 [SEP]用于分割句子 交叉熵两个概率分布之间的相似性 公式 H ( P , Q ) − ∑ x P ( x ) l o g Q ( x ) H(P,Q)-\sum_x P(x)logQ(x) H(P,Q)−∑x​P(x)logQ(x)​, P ( x ) P(x) P(x)是真实的概率分布 Q ( x ) Q(x) Q(x)​是预测的概率分分布 用途计算loss用于表示真实分布和预测分布之间的差异 性质非负对称 KL散度相对熵用来衡量两个分布之间的差异当用一个分布Q来拟合真实分布P时所需要的额外信息的平均量。 公式 D K L ( P , Q ) ∑ x P ( x ) l o g P ( x ) Q ( x ) D_{KL}(P,Q)\sum_x P(x)log\frac{P(x)}{Q(x)} DKL​(P,Q)∑x​P(x)logQ(x)P(x)​ P ( x ) P(x) P(x)是真实的概率分布 Q ( x ) Q(x) Q(x)​是预测的概率分分布 性质非负不对称不满足交换律 用途一般用于无监督学习 对比学习需要继续补充 是一种机器学习技术用于区分相似和不相似的数据点。训练最大化相似数据点之间的相似度。 batch_size和桶之间的关系 batch_size指的是每次训练过程中模型同时处理的数据样本的数量。较小的batch_size可以减少内存消耗并可能提高模型训练的泛化能力而较大的batch_size可以提高数据处理效率和模型训练速度;桶是按照句子的特征进行分类例如我们常用的是句子的长度将句子长度相似的分配到一个桶里这样可以在填充操作的时候少填充一些提高计算的效率在没有桶的时候batch_size决定每个批次中的样本数引入了桶之后将样本分配到桶里然后再在每个桶里面根据batch_size进行划分。 权重衰减 在loss里面添加一个惩罚项来限制模型的复杂度常被称为L2正则化。他本质上就是缩小了参数的取值范围 loss的可视化工具animator 网络.weight.norm().item()用于计算权重的正则化 GloVe生成的词向量是静态的训练基于无监督学习通过全局共现统计信息来优化词向量。它的模型结构相对简单主要侧重于词与词之间的共现关系 ELMo生成的词向量是动态的根据词出现的具体上下文而变化。这使得ELMo能够更准确地表示语言尤其是对于多义词和语境依赖的表达。使用深度学习方法具体是通过双向LSTM来预训练一个语言模型。ELMo的训练复杂度较高但能够捕捉到更丰富的语言特征。 Highway connection高速连接是一种神经网络架构特别是在深度学习中使用的技术旨在解决更深网络的训练难题。它由Srivastava等人在2015年提出其核心思想是允许训练信号不经过整个网络的每一层直接传递类似于残差网络ResNet中的跳跃连接skip connection但是在传递方式上有所不同。 Highway网络的主要特点是它引入了门控机制gating mechanism这些门控制了信息是直接传递还是经过非线性变换。具体来说每一层的输出不仅取决于当前层的处理结果还取决于前一层的输入这种依赖关系由两个门transform gate和carry gate来调控。这使得网络能够自适应地决定在每一层保留多少之前层的信息以及通过非线性变换传递多少新的信息。
http://www.zqtcl.cn/news/138923/

相关文章:

  • 信息产业部icp备案中心网站asp网站制作教程
  • 品牌网站建设的意义建站公司联系电话
  • 网站建设 备案什么意思哪里有做效果图的网站
  • 教你免费申请个人网站html网站建设方案
  • 网站运营方案怎么写?在线制作手机网站
  • 微信html5模板网站哪个网站有手机
  • 网站知名度网站广东省备案系统
  • 柯桥区网站建设湖南人文科技学院
  • 建设一个网站需要哪些福田企业网站推广哪个好
  • 网站外链建设的15个小技巧中国农业建设中心网站
  • 交易平台网站怎么做wordpress 置顶 函数
  • 义乌市场官方网站jsp做就业网站
  • 推荐网站在线看兄弟们企业概况简介
  • 软装设计方案网站网站制作排名优化
  • 网站前端模板专业建站报价
  • 站长工具星空传媒怎么做游戏网站编辑
  • 大兴手机网站建设深圳小程序开发公司
  • c 大型网站开发案例电销系统线路
  • 鸿扬家装网站建设谈谈对seo的理解
  • 七米网站建设做网站也分内存大小的吗
  • 丝足网站的建设南宁关键词排名公司
  • 上饶商城网站建设亚马逊海外购官方网
  • 做网站代理商好赚吗高端品牌男鞋有哪些
  • 农产品网站建设及优化项目商务网站建设 视频
  • 北京兼职做网站建设百度app平台
  • 网站建设头部代码网站怎么做咨询
  • 网站运营 网站建设北京公司网站制作要多少钱
  • 郑州看妇科最好的医院是哪里南宁百度seo软件
  • 深圳市住房与建设局实名制网站手机网站打不开被拦截怎么办
  • 公司做网站的价格几千元wordpress 修改页脚