当前位置: 首页 > news >正文

化工设计网站无锡做网站哪个公司好

化工设计网站,无锡做网站哪个公司好,如何在网站页面添加代码,淘宝店铺一年交多少钱GPT系列 GPT#xff08;Generative Pre-trained Transformer#xff09;是一系列基于Transformer架构的预训练语言模型#xff0c;由OpenAI开发。以下是GPT系列的主要模型#xff1a; GPT#xff1a;GPT-1是于2018年发布的第一个版本#xff0c;它使用了12个Transformer…GPT系列 GPTGenerative Pre-trained Transformer是一系列基于Transformer架构的预训练语言模型由OpenAI开发。以下是GPT系列的主要模型 GPTGPT-1是于2018年发布的第一个版本它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。 GPT-2GPT-2于2019年发布是GPT系列的第二个版本。它比GPT-1更大更强大使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置。GPT-2在生成文本方面表现出色但由于担心滥用风险OpenAI最初选择限制了其训练模型的发布。 GPT-3GPT-3于2020年发布是GPT系列的第三个版本也是目前最先进和最强大的版本。它采用了1750亿个参数拥有1750亿个可调节的权重。GPT-3在自然语言处理NLP任务中表现出色可以生成连贯的文本、回答问题、进行对话等。 GPT-3.5GPT-3.5是在GPT-3基础上进行微调和改进的一个变种它是对GPT-3的进一步优化和性能改进。 GPT系列的模型在自然语言处理领域取得了巨大的成功并在多个任务上展示出了强大的生成和理解能力。它们被广泛用于文本生成、对话系统、机器翻译、摘要生成等各种应用中对自然语言处理和人工智能领域的发展有着重要的影响。 GPT系列是当前自然语言处理领域下最流行也是商业化效果最好的自然语言大模型并且他的论文也对NLP的领域产生巨大影响GPT首次将预训练-微调模型真正带入NLP领域同时提出了多种具有前瞻性的训练方法被后来的BERT等有重大影响的NLP论文所借鉴。 目录 GPT系列GPT-1模型架构1. 无监督的预训练部分2. 有监督的微调部分3. 特定于任务的输入转换 GPT-1模型架构 GPT的训练过程由两个阶段组成。第一阶段是在大型文本语料库上学习高容量语言模型。接下来是微调阶段我们使模型适应带有标记数据的判别任务。 上图是GPT架构的整体示意图左图是论文中所使用的 Transformer 架构右图表示了用于对不同任务进行微调的输入转换。我们将所有结构化输入转换为Tokens序列以便由我们的预训练模型进行处理然后是线性softmax层。 1. 无监督的预训练部分 给定一个无监督的标记语料库 U u 1 , . . . , u n U {u_1,. . . , u_n} Uu1​,...,un​我们使用标准语言建模目标来最大化以下可能性 L 1 ( U ) ∑ i l o g P ( u i ∣ u i − k , . . . , u i − 1 ; θ ) L_1(U)\sum_{i}logP(u_i|u_{i-k},...,u_{i-1};\theta) L1​(U)i∑​logP(ui​∣ui−k​,...,ui−1​;θ) 其中 k 是上下文窗口的大小条件概率 P 使用参数为 θ 的神经网络进行建模。这些参数使用随机梯度下降进行训练。 在GPT的论文中使用多层 Transformer 解码器作为语言模型它是 Transformer的变体。该模型对输入上下文标记应用多头自注意力操作然后是位置前馈层以生成目标标记的输出分布 h 0 U W e W p h l t r a n s f o r m e r _ b l o c k ( h l − 1 ) i ∈ [ 1 , n ] P ( u ) s o f t m a x ( h n W e T ) h_0UW_{e}W_p \\ h_ltransformer\_block(h_{l-1}) i\in[1,n]\\ P(u)softmax(h_nW_e^T) h0​UWe​Wp​hl​transformer_block(hl−1​)i∈[1,n]P(u)softmax(hn​WeT​) 其中 U ( u − k , . . . , u − 1 ) U (u_{−k}, ..., u_{−1}) U(u−k​,...,u−1​) 是标记的上下文向量n 是层数 W e W_e We​ 是标记嵌入矩阵 W p W_p Wp​ 是位置嵌入矩阵。对于所有的U得到的所有的 P P P的对数和就是我们需要优化的目标即上面说的 L 1 L_1 L1​ 2. 有监督的微调部分 当语言模型训练结束后就可以将其迁移到具体的NLP任务中假设将其迁移到一个文本分类任务中记此时的数据集为 C C C对于每一个样本其输入为 x 1 , . . , x m x_1,..,x_m x1​,..,xm​ ,输出为 y y y。对于每一个输入经过预训练后的语言模型后可以直接选取最后一层Transformer最后一个时间步的输出向量 h l m h_l^m hlm​然后在其后面接一层全连接层即可得到最后的预测标签概率 其中 W y W_y Wy​为引入的全来凝结层的参数矩阵。因此可以得到在分类任务中的目标函数 在具体的NLP任务中作者在fine-tuning时也把语言模型的目标引入到目标函数中作为辅助函数作者发现这样操作可以提高模型的通用能力并且加速模型手来你其形式如下 其中 λ一般取0.5。 3. 特定于任务的输入转换 不过上面这个例子知识对与文本分类任务如果是对于其他任务比如文本蕴涵、问答、文本相似度等那么GPT该如何进行微调呢 文本蕴涵对于文本蕴涵任务文本间的推理关系问题-答案作者用一个$负号将文本和假设进行拼接并在拼接后的文本前后加入开始符 start 和结束符 end然后将拼接后的文本直接传入预训练的语言模型在模型再接一层线性变换和softmax即可。 文本相似度对于文本相似度任务由于相似度不需要考虑两个句子的顺序关系因此为了反映这一点作者将两个句子分别与另一个句子进行拼接中间用“$”进行隔开并且前后还是加上起始和结束符然后分别将拼接后的两个长句子传入Transformer最后分别得到两个句子的向量表示 h l m h_l^m hlm​将这两个向量进行元素相加然后再接如线性层和softmax层。 问答和尝试推理对于问答和尝试推理任务首先将本经信息与问题进行拼接然后再将拼接后的文本一次与每个答案进行拼接最后依次传入Transformer模型最后接一层线性层得到每个输入的预测值。 具体的方法可以查看下图可以发现对这些任务的微调主要是 增加线性层的参数增加起始符、结束符和分隔符三种特殊符号的向量参数 注意GPT1主要还是针对文本分类任务和标注性任务对于生成式任务比如问答机器翻译之类的任务其实并没有做到太好效果的迁移但是GPT-2的提出主要针对生成式的任务。我们放到下期再讲。
http://www.zqtcl.cn/news/364199/

相关文章:

  • 营销网站更受用户欢迎的原因是英文网站的建设意义
  • 学网站建设基础河北省建设网站的网站首页
  • 铜仁市住房和城乡建设部网站延边有没有做网站的
  • 如何做ppt的模板下载网站移动端网站的优点
  • 网站域名没有实名认证微信平台开发技术
  • 自己用电脑做虚拟机怎么建网站个人网站 icp 代理
  • 嘉兴网站建设999 999中国建设招标网是私人网站吗
  • 网站程序设置主页面零基础学wordpress pdf下载
  • 网站代码优化有哪些专做立体化的网站
  • 单县网站定制培训机构专业
  • 网站防红链接怎么做网站建设中提示页面
  • 网站开发和游戏开发的区别互联网服务平台投诉
  • 杭州定制网站公司出名的设计网站
  • 网站查询访问注册电气工程师考试
  • 北京企业网站推广哪家公司好电商平台代运营
  • 北京快速建站模板信息管理系统网站开发
  • 做网站后台需要写代码吗做网站收多少钱
  • 企业手机网站建设咨询为企业设计一个网站
  • 做网站平台成本珠海自适应网站设计
  • 做网站手机端需要pc端的源代码吗经营网站需要注意什么
  • 域名购买之后怎么做网站做+淘宝客最大的网站是叫什么
  • 在线营销型网站wordpress 怎么添加即时联系窗口
  • 网站加图标网站开发属于无形资产
  • 个人网站开发与设计摘要企业营销策划心得体会
  • 专注苏州网站优化自建网站的优缺点
  • 网络建站怎么做js与asp.net做的网站
  • 个人网站设计理念自己做简历网站
  • 做网页设计的网站网站流量多少做网盟
  • 上海协会网站建设网站制作培训费用
  • 学会网站建设总结淮北市建市