当前位置: 首页 > news >正文

做网站最下面写什么健康企业建设标准

做网站最下面写什么,健康企业建设标准,网站建设开票属于哪个名称,字幕如何做模板下载网站gpt3#xff08;GPT3——少样本示例推动下的通用语言模型雏形)结合提示词和少样本示例后#xff0c;展示出了强大性能。但大语言模型的训练门槛太高#xff0c;普通研究人员无力#xff0c;LM-BFF(Making Pre-trained Language Models Better Few-shot Learners)的作者受gp…gpt3GPT3——少样本示例推动下的通用语言模型雏形)结合提示词和少样本示例后展示出了强大性能。但大语言模型的训练门槛太高普通研究人员无力LM-BFF(Making Pre-trained Language Models Better Few-shot Learners)的作者受gpt3启发后将gpt3的少样本学习思路与常规语言模型如BERT、RoBERTa相结合最终提出了一种新颖的微调方法大大降低了微调所需样本量也为我们理解提示词的重要性带来了新的启发。 本文主要分享这种新颖微调方法的好处不对细节做过多展开。 方法 传统的微调方法是给定训练好的预训练模型后再利用该预训练模型在各类监督数据集上结合标签进行监督训练。输入和输出由不同的数据集决定。 LM-BFF作者的思路是在监督训练时通过引入提示模板 (prompt template) 和任务示例 (task demonstrations/examples)将原始输入和输出标签转换成一种更接近语言模型预训练任务的格式即完形填空或文本生成进行训练。 例如对于一个传统的文本分类任务 传统微调输入(以RoBERTa为例)[CLS] No reason to watch. [SEP] 预测输出通常是数据集的标签如positivenegativeLM-BFF微调输入示例[CLS] No reason to watch. [SEP] It was [MASK]. [SEP] A fun ride. It was great. [SEP] The drama discloses nothing. It was terrible. [SEP],预测输出是标签词映射得到的词如great,terrible 在这个LM-BFF的例子中 No reason to watch. 是原始输入文本。It was [MASK]. 是应用于原始输入文本的提示模板模型需要预测 [MASK] 位置最合适的词。A fun ride. It was great. 和 The drama discloses nothing. It was terrible. 是任务示例demonstrations。其中 great 和 terrible 是原始标签如“正面”、“负面”通过标签词映射 (label word mapping) 转换成的具体词语。这些示例为模型提供了当前任务的上下文信息。 下图是更详细的过程 LM-BFF的四个关键部分 三个输入部分原始输入 提示模板 任务示例输出标签词映射。 其中提示模板和输出词映射可以手动指定也可以自动得出作者提出了自动推断提示模板和输出词映射的方法。任务示例从训练样本中抽样。 自动推断输出标签映射词的方法 使用预训练语言模型如 RoBERTa来预测与标签语义最相关的词。对于每个标签构造一个模板如“It was [MASK].”然后通过模型预测 [MASK] 位置的词选择概率最高的词作为标签映射词。例如对于“positive”标签模型可能预测“great”作为映射词对于“negative”标签预测“terrible”。这种方法减少了手动指定标签词的负担提高了方法的通用性。 自动推断提示模板的方法 利用 T5 模型的填空能力将模板字符作为掩码序列输入T5使其通过预测掩码序列生成候选提示模板。例如对于文本分类任务T5 可能生成“It was [MASK].”或“The sentiment is [MASK].”作为提示模板。然后通过少量验证数据评估每个模板的性能选择效果最好的模板。这种方法通过自动化生成提示模板减少了人工设计的成本。 实验 作者在GLUE数据集和SNLI数据集上做了实验。 在不同的数据集上作者手工指定了提示模板和标签词映射。当然后面有手工也有自动推断的实验结果。 实验效果 作者对比了若干方法 第一部分 Majority(选取数据最多的类做标签)使用作者手工指定的提示词进行零样本学习不微调训练使用作者手工指定的提示词 任务示例不微调训练使用少量样本进行传统微调训练 第二部分(LM-BFF) 手工指定提示词原始输入 提示模板微调训练手工指定提示词任务示例原始输入 提示模板 任务示例 微调训练自动指定提示词原始输入 提示模板微调训练自动指定提示词任务示例原始输入 提示模板 任务示例 微调训练 第三部分: 全量样本传统微调训练 实验结果确实显著的表明在少样本设定下LM-BFF具有显著的优势比传统微调性能大幅提高大多在百分之10以上 结合提示词微调的优势 另一篇论文(How Many Data Points is a Prompt Worth?)通过实验清楚的表明了结合提示微调的好处: 作者用SuperGLUE数据集对比了结合提示微调和传统微调在不同数据量情况下的表现横坐标代表样本量黄色代表提示词微调在使用不同样本量数据时的性能紫色为传统微调的性能。大部分数据集上提示词微调的效果都要好于传统微调。 结果表明结合提示微调对训练样本的需求大大少于传统微调几十个样本可以达到较好效果不同数据量下的效果也大多好于传统微调。这也充分证明了语言模型的提示词的重要性。
http://www.zqtcl.cn/news/836889/

相关文章:

  • 工作室 网站建设app公司
  • 自己做的网站怎么在百度搜索到网页制作论文3000字
  • 如何网站托管中国跨境电商平台有多少
  • 手机p2p网站做平面设计兼职的网站有哪些
  • 贵金属网站建设唐山网站制作工具
  • 网站入门成都网站制作沈阳
  • 接做网站单子的网站做网站要会那些ps
  • 做盗市相关网站wordpress速度优化简书
  • 贵阳手机网站建设公司国内永久免费云服务器
  • 温州做网站定制哪家网络推广公司好
  • 招聘网站怎么做线下活动网站后台管理系统怎么开发
  • 西湖区外贸网站建设商梦建站
  • 网站首页设计注意斗蟋蟀网站建设
  • 石家庄网站建设远策科技网站建设公司人员配备
  • 手机怎么建网站链接专门做鞋子的网站吗
  • 网站建设设计作品怎么写网站建设 网站内容 采集
  • 自己做网站nas如何做网站大图片
  • 网站优化定做嘉兴模板建站代理
  • 南宁做网站比较好的公司有哪些花乡科技园区网站建设
  • 网站注册平台怎么注册申请空间 建立网站吗
  • 汕头住房与城乡建设网站做网站视频 上传到哪儿
  • 东莞网站关键词优化福建个人网站备案
  • 国外获奖flash网站泉州网站制作专业
  • 万网域名注册后如何做网站教学上海app开发和制作公司
  • 恩施网站建设公司个人网站怎么制作成图片
  • 泸州高端网站建设公司上海企业网站
  • wordpress 建站 知乎济南全包圆装修400电话
  • 织梦建设两个网站 视频影视公司宣传片
  • 北京小企业网站建设那个做网站好
  • 怎样用模块做网站深圳网站建设制作厂家