当前位置: 首页 > news >正文

福州市建设厅网站购物网站推广怎么做

福州市建设厅网站,购物网站推广怎么做,vip影视建设网站官网,wordpress 自定义类型文 | ZenMoore编 | 小轶写在前面一觉醒来#xff0c;迷糊之中看到一条推特#xff1a;瞬间清醒#xff01;Google 的 Yi Tay (and Mostafa) 团队提出了一个新的策略 Mixture-of-Denoisers, 统一了各大预训练范式。重新思考现在的预训练精调#xff0c;我们有各种各样的预训… 文 | ZenMoore编 | 小轶写在前面一觉醒来迷糊之中看到一条推特瞬间清醒Google 的 Yi Tay (and Mostafa) 团队提出了一个新的策略 Mixture-of-Denoisers, 统一了各大预训练范式。重新思考现在的预训练精调我们有各种各样的预训练范式decoder-only or encoder-decoder, span corruption or language model, 等等不同的范式建模了不同的上下文关系也正是因为如此不同的预训练范式适配不同类型的下游任务。例如基于双向上下文的预训练(span corruption如T5)更加适用于 fact completion基于单向上文(PrefixLM/LM如GPT等)更加适用于 open ended. 也就是说具体的下游任务类型需要选用特定的预训练策略...准确地说常见有三套范式单向文本建模的CausalLM(i.e. LM)双向文本建模的 span corruption, 前缀文本建模的 PrefixLM.这是大一统吗感觉只能是小一统总感觉还缺少一味菜今天Google 把这道菜补上了那就是Mixture-of-Denoisers先来感受一下效果论文标题Unifying Language Learning Paradigms论文作者Yi Tay, Mostafa Dehghani, etc. (Google)论文链接https://arxiv.org/pdf/2205.05131.pdf方法 (UL2)先说一下本文方法的目的构建一种独立于模型架构以及下游任务类型的预训练策略可以灵活地适配不同类型的下游任务。整个方法的框架和 UniLM[1] 是很相似的但是引入了稀疏化。Mixture-of-Denoisers首先回顾上文所说的三个预训练范式CausalLM, PrefixLM, span corruption其实都可以统一到 span corruption 定义函数 , 这里 为平均 span 长度 为 corruption rate, 为 corrupted span 的数量.定义输入序列长度为 经过正态分布或者均匀分布采样 corrputed span 后训练模型学习恢复这些 span.可见对于 CausalLM只需要设置 ; 对于 PrefixLM, 只需要设置 (为前缀长度)。基于此作者提出了 Mixture-of-Denoisers :R-Denoiser : regular denoising. corrupted span 的长度为 2-5 个 tokens, 大约是 15% 的掩码率。通常用于获得知识而不是生成流畅文本的能力。S-Denoiser : sequential denoising. 保留严格的序列顺序通常用于 inputs-to-targets 任务如 PrefixLM. 需要注意的是可见的 Prefix 仍然是上下文建模方式但是被掩码掉的长 span 是不可见的。X-Denoiser : extreme denoising. 可以看作 R-denoiser 和 S-denoiser 的中间体是一种极端的情况也就是 span length 非常长或者 masking rate 非常大。一般用于长文本生成任务因为这类任务一般只有非常有限的上下文记忆信息。最后本文使用的七个 denoiser 设定如下Mode Switching本文提出通过 mode-switching 来进行 paradigm-shifting. 首先在预训练的时候新增三个 special tokens : 分别指代三个 paradigms (i.e... denoiser). 然后在下游任务精调或者小样本学习时也为特定任务的设定和需要新增一个 paradigm token, 以触发模型学习更优的方案。然后在主体模型架构上使用 encoder-decoder 还是 decoder-only 是不重要的因为本文方法的初衷就在于 architecture-agnostic (架构无关). 因此作者基于 T5对两种设定都进行了相关实验。实验消融实验任务设定SuperGLUE (SG) 8 NLU sub-tasksGEM benchmark :  XSUM (summarization), ToTTo (table-to-text generation), Schema Guided Dialog (SGD)C4 validation set场景设定精调(fine-tuning)基于提示的单样本学习Baselines :Causal Language Model (CLM) : GPT-stylePrefix LM (PLM)Span Corruption (SC) : T5-styleSpan Corruption LM (SCLM)UniLM (ULM)Decoder v.s. Encoder-Decoder结论当不考虑存储时encoder-decoder 比 decoder-only 更优比起 backbone 架构自监督目标更加重要。Paradigm Prompt (mode switching)结论在 one-shot 场景下使用范式提示几乎总是更好但是选对 paradigm prompt 非常关键。Mixture-of-Denoisers▲SD% 表示 S-Denoisers 的占比结论X-denoising 有补充性效果但不能单用只用一小部分 S-Denoisers () 更好。小幅增加模型尺寸以及预训练数据量结论本文方法在 SuperGLUE 上比 T5 差了一点但是其他任务仍然领先。200亿参数好了现在开始壕起来Scaling to 20B Parameters虽然这个方法是 architecture agnostic 架构无关的但基于上面的消融实验我们 prefer Encoder-Decoder 架构更重要的是Encoder-Decoder 具备固有的稀疏特性(intrinsic sparsity)任务设定文本生成摘要和 data-to-text 生成。数据集CNN/DailymailXSUMMultiNewsSAMSumWebNLGE2ECommonGen人工评测的文本生成aNLG, ARC-DA, WMT19, XSUM理解、分类、问答RACE, QASC, OpenBookQA, TweetQA, QuAIL, IMDB, Agnews, DocNLI, Adversarial NLI, VitaminC, Civil Comments and Wikipedia Toxicity detection常识推理HellaSwag, SocialIQA/SIQA,  PhysicalIQA/PIQA, CosmosQA, AbductiveNLI, CommonsenseQA, CommonsenseQA2长程推理Scrolls benchmark (GovReport, SumScr, QMSUm, QASPER, NarrativeQA, QuaLITY, ContractNLI )结构化知识 (Structured Knowledge Grounding): UnifiedSKG (WikiTQ, CompWQ, FetaQA, HybridQA, WikiSQL, TabFat, Feverous, SQA, MTOP, DART)信息检索Natural Questions有意思的是对于信息检索作者使用的是 DSI[2] 进行的实验简单说就是 text-to-docid 进行检索。评测结果Tradeoffs between Finetuning and Prompt-based Zero-shot Learning (SuperGLUE)Generative Few-shot: XSUM SummarizationSummary of UL20B results compared to state-of-the-art写在最后看完这篇之后总的感觉并没有第一眼看到推特时那样激动或者说也没有当初学习 UniLM[1] 时的感觉强烈。我在之前的文章也提到过Prompt 主要适用于三个场景低资源、低算力、统一场景。也曾在知乎上发表过想法Prompt 在某种程度上可以进行模型的专家化(expertization)或者模块化(modularization)需要和 Mixture-of-Experts 进行沟通。这篇文章使用 paradigm prompt 进行 denoiser 的 mode switching有进一步的启发意义。脱离 denoiser 的 mixture可能会有更加宏大的 picture.另外一直来说为不同的下游任务部署特定的模型是一个很消耗资源的方式因此一个统一的 black box 是必然的。虽然 GPT-3/T0[3] 等通过 instruction/prompt 或 in-context learning 等方式为解决这个问题提供了思路但是要真正 beat task-specific finetuning, 仍然有一段路要走。希望从这篇文章出发能够彻底解决这个关键的部署问题。萌屋作者ZenMoore北航本科生爱数学爱物理爱 AI 想从 NLP 出发探索人工认知人工情感的奥秘个人主页 zenmoore.github.io 知乎 ZenMoore, 微信 zen1057398161 嘤其鸣矣求其友声✨作品推荐一文跟进Prompt进展综述15篇最新论文逐一梳理图灵奖大佬谷歌团队为通用人工智能背书CV 任务也能用 LM 建模以4%参数量比肩GPT-3Deepmind 发布检索型 LM或将成为 LM 发展新趋势后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] UniLM : https://arxiv.org/pdf/1905.03197.pdf[2] DSI : https://arxiv.org/pdf/2202.06991.pdf[3] T0 : https://arxiv.org/pdf/2110.08207.pdf
http://www.zqtcl.cn/news/12293/

相关文章:

  • 电子商务实网站的建设个人简历ppt模板免费下载可编辑
  • 外国大气网站设计网站建设与管理期末总结
  • 建设部网站监理公告精品课程教学网站
  • 怎么做学校网站和微信公众号电子工程院官网
  • 三明网站优化适合医药公司做网站的图片
  • 保定网站seo技术做建材一般去什么网站宣传
  • 广州市白云区网站建设维护深圳罗湖的网站设计
  • 公司网站建设业务文案云南省建设执业资格注册管理中心网站
  • 宝安中心医院体检成都网站排名生客seo怎么样
  • 溧水做网站价格免费手机网页
  • 广州网站设计费用想开一家网店
  • 做网站挣钱打擦边球《网站建设教程
  • 网站建设千套素材自己怎么做卖东西的网站
  • wordpress支持多个站点地址门户网站建设投入
  • 极速网站建设商务网站建设组成包括网站优化
  • 文登城乡建设局网站如何获取网站是哪个公司制作
  • 常州微信网站制作p2p信贷网站建设
  • wordpress 查死链接宁波seo资源
  • 专业做淘宝网站公司网站认证怎么认证
  • 网站300m空间深圳软装设计公司有哪些
  • 网站网络营销平台辉县网站建设
  • 落实网站建设培训班精神农产品营销方案
  • 网站进度条网站系统制作
  • 塘厦镇仿做网站怎么做网络推广赚钱
  • 上海做网站好的公司有哪些源码网站建设步骤
  • 北京网站建设哪家好青岛市区商场黄页
  • 免费视频网站推广软件确定网站建设目标
  • 史上最全设计网站浙江网络公司排名
  • 如何查看网站服务器时间wordpress 加视频教程
  • 网站页面html静态化蔚县网站建设公司