当前位置: 首页 > news >正文

不利于网站收录小程序开发公司谁知道

不利于网站收录,小程序开发公司谁知道,曹县网站开发,asp 绿色环保企业网站源码 v1.1经过2023年的发展#xff0c;大语言模型展示出了非常大的潜力#xff0c;训练越来越大的模型成为有效性评估的一个关键指标#xff0c;论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中#xff0c;作…经过2023年的发展大语言模型展示出了非常大的潜力训练越来越大的模型成为有效性评估的一个关键指标论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中作者全面分析了微调大语言模型(llm)及其在金融情绪分析中的零样本和少样本的能力。 作者通过使用两种方法来探索金融情绪分析背景下的潜力和适用性: 在特定的领域金融领域的数据集上使用小语言模型进行微调作者测试了250M到3B参数各种模型以gpt-3.5 turbo为重点的情境学习 作者还将结果与SOTA(最先进的)模型进行比较以评估其性能我们看看小模型是否还同样有效。 论文证明了以下观点: 微调较小的llm可以达到与SOTA微调llm相当的性能。零样本和少样本学习的的性能与经过微调的小型llm相当。增加上下文学习中的样本数量并不一定会提高情感分析任务的性能。微调较小的llm会降低成本和提高计算效率。 作者专注于使用QLoRa (Quantized low - rank - adaptive)机制对FLAN-T5模型进行微调。使用财务特定数据集研究了3种尺寸:Flan-T5 base (250M) Flan-T5 large (780M)和Flan-T5-xl (3B参数)。 论文概述 论文首先总结了特定于金融领域的SOTA模型: FinBERT:使用总计4.9B Token组的金融通信语料库进行微调的BERT。bloomberg ggpt:这是一个包含50B个参数的闭源模型专门针对各种金融数据进行训练。它在情感分析中表现出良好的性能。使用LLama-7B对FinGPT进行微调。该模型使用更少的计算资源实现了与bloomberg ggpt相当的性能。ChatGPT这样的llm也可以使用零样本学习。但是他们在少样本学习中表现并不理想 作者使用了以下模型 1、没有进行任何微调:Flan-T5 base (250M) Flan-T5 large (780M) Flan-T5-xl (3B参数)ChatGPT (gpt-3.5 turbo)。目标是研究模型的大小对零样本和少样本学习的影响。 2、微调llm:具有3个尺寸的相同型号的Flan-T5已经进行了微调。 数据集 使用了Twitter财经新闻(Twitter Train)包括与金融主题相关的推文可通过HuggingFace访问。它包含9540个样本。 TFSN: 2390个带有注释的财经相关推文语料库样本。 FPB: 4845篇金融新闻文章样本由16位领域专家注释。 GPU资源 为了对3个模型进行微调作者使用了A100 GPU每个模型的总训练时间如下:基本模型28分钟大模型54分钟XL模型65分钟所以说这个微调是非常节省资源的。 微调小型LLMs 结果显示了经过微调的小型llm优于大型llm的性能: 所有Fine-tuned-FLAN-T5的性能都优于FinBERTLarge (780M)和XL(3B) fine - tuning - flan - t5性能优于directive - lama- 7b在TFSN数据集中即使是基础(250M)微调的flan - t5也比使用ChatGPT (gpt-3.5 turbo)的k-shot上下文学习表现更好。 少样本学习 以下是0 -shot和k-shot学习的结果(k 1,5和10): 在TFSN数据集上零样本和少样本学习的表现明显低于所有其他微调模型。(除了XL表现比FinBert稍好) 但是在FPB数据集中与ChatGPT相比Large和XL Flan-T5零样本和少样本学习表现出较强的性能。 样本的增加使得基本型Flan-T5的性能略有提升。但在Large和XL fall - t5中这导致精度下降。这是因为冗长的上下文窗口可能会导致LLM误入歧途。 所以作者建议当k-shot增加时可以使用语义相似检索或思维链(CoT)或线索和推理提示(CARP)方法来解决性能下降的问题。 总结 可以看到针对特定的领域微调小模型还是能过够得到很好的效果这在对于我们实际应用是是非常有帮助的不仅可以节省成本还可以节省我们的训练时间可以让我们进行快速的版本迭代。 论文地址 https://avoid.overfit.cn/post/c9d9a74fd94444189283a1b3d31f6b28 作者Hanane Dupouy
http://www.zqtcl.cn/news/958336/

相关文章:

  • 江桥做网站wordpress代码高亮插件
  • 合肥网站制作哪家好建设网站培训班
  • 优化站诊断山东大型网站建设
  • 网页设计与制作个人网站网络开发工程师
  • 沈阳网站关键词优化哪家好外贸营销网站制作公司
  • 连云港做网站的临沂网站建设有哪些
  • 做毕设的网站万wordpress图片怎么居中
  • 首页网站模板网站外链分析怎么做
  • so域名的网站有哪些结合公众号小店做网站
  • 阜宁专业做网站做信息网站能挣钱吗
  • wordpress 怎么手动更新宝安网站 建设seo信科
  • 腾讯的网站建设用了多少钱找人合伙做网站平台
  • 企业网站功能模块介绍服务器免费体验
  • 小程序制作收款网站结构优化的优化包括
  • 北京市建设工程质监站网站poi player wordpress
  • php网站开发工程师招聘网自己做小程序要钱吗
  • 两学一做考试网站空间网
  • 齐诺网站建设东莞网站建设做网站集团网站群
  • 网站运营策略如何做软件网站开发培训
  • 数据库型网站wordpress上传工具
  • 太原建站公司模板宁波seo公司哪家好
  • 电商网站都是用什么做的承接电商网站建设
  • c2c网站代表有哪些怎样制作个人网站
  • wordpress linux 建站安丘市建设局官方网站
  • 谁给个好网站硬件开发是什么
  • 海外网站加速器免费长春做网站优化哪家好
  • 建立网站需要多长钱电脑网页设计培训
  • 给网站划分栏目邢台做网站优化费用
  • 网群企业网站管理系统红塔区住房和城乡建设局网站
  • 濮阳网站建设在哪做沈阳百度网站的优点