当前位置: 首页 > news >正文

网页传奇网站网络营销考试题及答案

网页传奇网站,网络营销考试题及答案,网站建设翻译谁提供,网站未来发展规划我们可以把语言模型分为两类#xff1a; 自动回归式语言模型#xff1a;自动回归式语言模型在本质上是单向的#xff0c;也就是说#xff0c;它只沿着一个方向阅读句子。正向#xff08;从左到右#xff09;预测#xff1b;反向#xff08;从右到左#xff09;预测。…       我们可以把语言模型分为两类 自动回归式语言模型自动回归式语言模型在本质上是单向的也就是说它只沿着一个方向阅读句子。正向从左到右预测反向从右到左预测。自动编码式语言模型自动编码式语言模型同时利用了正向预测和反向预测的优势。在进行预测时它会同时从两个方向阅读句子所以自动编码式语言模型是双向的。 本文将结合具体模型和论文探讨这两种模型的损失函数。 一、自动编码式语言模型 提到自动编码式语言模型那最经典的非BERT莫属了。 1.1 BERT BERTBidirectional Encoder Representations from Transformers是一种基于Transformer架构的自然语言处理模型。它由Google于2018年提出以解决语境相关性和双向理解的问题。BERT采用双向训练方式能够同时考虑文本左右两侧的上下文信息有效捕获语境含义。 BERT的损失函数由两部分组成第一部分是来自 Mask-LM 的单词级别分类任务另一部分是句子级别的分类任务。通过这两个任务的联合学习可以使得 BERT 学习到的表征既有 token 级别信息同时也包含了句子级别的语义信息。 在第一部分的损失函数中如果被 mask 的词集合为 M即计算BERT的MLM loss时会忽略没被mask的token因为它是一个词典大小 |V| 上的多分类问题那么具体说来有 在句子预测任务中也是一个分类问题的损失函数 这两个损失函数也很容易理解 多分类问题类别的数量等于词表的大小第个词被正确预测的概率越大相应的损失越小二分类问题第个句子的类别被正确预测的概率越大相应的损失越小 因此两个任务联合学习的损失函数是 二、自动回归式语言模型 BERT一度引领了NLP领域。但是随着OpenAI-GPT系列模型的爆火自回归式模型被更为广泛的采用。本章详细解析GLM大模型、LoRA微调方法、Prefix tuning这三篇论文中的损失函数。以期找到这些损失函数的共性。 2.1 GLM系列大模型 清华大学提出的GLM大模型预训练框架采用了自回归的空白填充方法在自然语言理解、无条件生成、有条件生成等NLP任务上取得了显著成果。其中GLM-130B是最大的模型拥有1300亿参数支持中英文双语旨在训练出开源开放的高精度千亿中英双语语言模型。该模型采用了量化技术可在4块309024G或8块2080Ti11G上推理。 输入向量为抽样出文本段每个文本段都代表了一系列连续的token吗可以写做每个文本段都用[MASK]代表从而形成了。表示抽样文本段的数量表示每个抽样文本段的长度。预训练目标可以用下式表示 需要对所有的抽样文本段进行随机打乱 是被打乱后所有可能性的集合又可以写作。在预测缺失的文本段时每个都包含多个单词所以需要用集合S表示作为下标模型可以访问到被破坏的文本以及前面所有的抽样文本段。 那每个中token的预测概率应该如何表示呢如下 很简单把所有token的概率乘起来就可以了。 需要注意的是这边要弄清楚和的区别 代表第个文本段由于有很多种打乱方式表示其中某一个打乱方式的第个抽样文本段。 2.2 LoRA 以上是针对GLM这系列特殊的模型。那么对于一般的自回归式模型有没有更普遍的一种表达方式呢我们以LoRA这篇文章为例。 每一个下游任务都能用 内容-目标对来表示和都是token序列。例如在自然语言-sql语句任务中是自然语言查询是其相应的SQL命令。对于概括任务而言是文章的内容是其相应的概述内容。预训练的自回归语言模型可以用来表示。那么微调就是要找到一组参数使得下式最大 即用前的所有样本来预测第个样本。 三、参考文献 [1] Devlin J , Chang M W , Lee K ,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].  2018. [2] Du Z , Qian Y , Liu X ,et al.GLM: General Language Model Pretraining with Autoregressive Blank Infilling[J].  2021.DOI:10.48550/arXiv.2103.10360.   [3] Zeng, Aohan, et al. Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414 (2022). [4] Hu E J , Shen Y , Wallis P ,et al.LoRA: Low-Rank Adaptation of Large Language Models[J].  2021.DOI:10.48550/arXiv.2106.09685.
http://www.zqtcl.cn/news/653195/

相关文章:

  • 网站建设首选公司大丰专业做网站
  • 用dw怎么做网站辽宁省住房和城乡建设厅网站首页
  • 如何用微信小程序做网站2个网站做的链接怎么用一个域名
  • 大理网站建设滇icp备凡科网站代码如何修改
  • 做电商网站的公司简介网站制作多久
  • 营销手段有哪些方式合肥网站优化服务网
  • 网站备案和域名备案山东临沂市建筑模板生产厂家
  • 三类安全员证查询系统网站建设优化服务机构
  • 网站关键词排名没有了城固县网站建设
  • 什么网站需要备案易语言用电脑做网站服务器
  • 可以做婚礼鲜花布置的网站洛阳霞光企业网站建设公司
  • 临淄网站制作同步显示一个wordpress
  • 先建设网站后付款网站相对路径和绝对路径
  • 临沂外贸国际网站建设网站开发外包公司合同
  • 网站设置快捷方式温州网站建设方案报价
  • 经营网站需要什么费用如何鉴赏网站论文
  • 聊城网站推广公司网站 防攻击
  • 小米盒子做网站一个县城广告公司利润
  • 天津市区县档案部门网站建设指导意见网站开发的需求分析教学视频
  • 网站服务合同范本企业网站建设费是无形资产吗
  • 国外做家纺的网站试用体验网站
  • 百度网站下载安装免费制作短视频的软件
  • 山西省这房和城乡建设厅网站邯郸北京网站建设
  • 廊坊网站seo服务主机服务器网站 怎么做
  • 网站的建设与运维东营会计信息网
  • 郑州网站建设程序3g手机网站
  • 建设监理网站设计了网站首页
  • 织梦教育网站开发商务网站建设实训总结
  • 广西执业药师培训网站网站设计 原型图
  • 网站建设客户群体分析微信开放平台小程序开发文档