当前位置: 首页 > news >正文

企业收录网站有什么用网站模板下载带后台

企业收录网站有什么用,网站模板下载带后台,河南省建设厅信息网站,网站建设鼎网络1. 背景 本qiang~这段时间调研了LLM上下文扩展的问题#xff0c;并且实打实的运行了几个开源的项目#xff0c;所谓实践与理论相结合嘛#xff01; 此文是本qiang~针对上下文扩展问题的总结#xff0c;包括解决方案的整理概括#xff0c;文中参考了多篇有意义的文章并且实打实的运行了几个开源的项目所谓实践与理论相结合嘛 此文是本qiang~针对上下文扩展问题的总结包括解决方案的整理概括文中参考了多篇有意义的文章他山之石可以攻玉。 大语言模型的扩展有诸多意义如进行更长的会话、总结更长的文档等。 2. 上下文扩展方案 2.1 位置插值 位置插值(Position Interpolation)是Meta研究人员在去年发布的论文《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》提出的方案基线模型为LLAMALLAMA采用的位置编码是苏神提出的ROPE(如果苏神的文章理论不清楚推荐拜读下FireFly作者的《图解RoPE旋转位置编码及其特性》连接在文末)但ROPE的外推性效果不佳位置插值则做了进一步的改进优化。 位置插值的原理图如下 原理其实很简单通过线性降低输入位置索引以匹配原始上下文窗口大小然后通过少量微调工作然后将LLaMA 7B和65B模型初始的2048扩展到32768效率和效果均有保障。 位置插值的代码可以参考transformers中LlamaLinearScalingRotaryEmbedding方法该防范继承了ROPE的基础类LlamaRotaryEmbedding改动之处仅在于图中标红之处。 2.2 LongLoRA LongLoRA是港中文大学和MIT联合发出的论文《LONGLORA:EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》提出的方法本论文的主要改进之处在于 1. 基于位置插值方法在上下文扩展任务中引入LoRA方法降低对硬件资源的专需。 2. 提出了shift short attention将attention的直接计算改进为分组计算且保障相邻组间信息共享。 3. 将norm层及embed层也加入到微调训练中该部分的参数占比相对较少。 LoRA大家应该很熟悉下面将重点介绍shift short attention。原理图如下 (1) 首先将head维度的特征拆分为2块 (2) 然后将其中一组的特征被移动移动大小为group size的一半 (3) 将tokens拆分成组且reshape为batch维然后attention计算 (4) 最后将计算后的结果进行还原。 shift short attention的伪代码如下具体代码可以参考LongLoRA的github仓库 2.3 LongQLoRA LongQLoRA的论文是《LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS》主要的思想就是在LongLoRA的基础上引入了量化操作进一步降低了显卡需求。(Ps: 其实LongLoRA项目本身也集成了量化微调) LongQLoRA仅在一张32G的V100上可以将LLaMA2的7B和13B从4096扩展到8192甚至12K仅需要1000步微调即可。 LongQLoRA本身也是基于transformers架构因此引入量化配置仅需要些许改动即可具体如下 3. 总结 一句话足矣~ 本文主要展示了LLM长文本扩展的方法包括位置插值、LongLoRA、LongQLoRA等论文的简单概述。 此外所有的论文最好能够结合源码进行开展目前本qiang~就在践行这一条路线欢迎大家一块交流。 4. 参考 (1) ROPE原理: https://spaces.ac.cn/archives/8265 (2) 图解ROPE: https://mp.weixin.qq.com/s/-1xVXjoM0imXMC7DKqo-Gw (3) 位置插值论文: https://arxiv.org/pdf/2306.15595v2.pdf (4) LongLoRA论文: https://arxiv.org/pdf/2309.12307v2.pdf (5) LongLoRA代码https://github.com/dvlab-research/longlora (6) LongQLoRA论文https://arxiv.org/pdf/2311.04879v2.pdf (7) LongQLoRA代码https://github.com/yangjianxin1/longqlora
http://www.zqtcl.cn/news/249754/

相关文章:

  • 如何备份网站数据库网站用户体验模型
  • 网站域名注册流程办公室装修风格
  • a站免费最好看的电影片推荐方正隶变简体可以做网站用么
  • 创同盟做网站找公司做网站需要咨询什么问题
  • 西安行业网站株洲高端网站建设
  • 优化网站流量商城网站建设软件
  • dw属于什么的网页制作工具网络建站优化科技
  • 百度网站首页的设计理念南京高新区规划建设局网站
  • 虚拟机做实验的网站网站以个人名义备案
  • 自定义表单网站网站建设营销型号的区别
  • 有个网站做彩盒的贵阳网站建设托管
  • 网站制作属于什么专业做网站需要什么配置服务器吗
  • 网站开发学习培训广州网站优化关键词公司
  • 毕节金海湖新区城乡建设局网站企业网站的步骤
  • 网站后台设计教程网站建设判断题
  • 珠海网站建设 金蝶天元建设集团有限公司李华
  • 海安市建设局网站成都官网seo技术
  • 网站建设策划书结束语wordpress付费版
  • 进口网站建设做网站用什么格式的图片
  • 青海省住房和城乡建设部网站进入网站空间
  • 做公司简介的开源网站企业seo多少费用
  • 学校网站建设工作方案昆明做网站词排名优化
  • 镇江企业做网站针对人群不同,网站做细分
  • 个人单页网站建设台州网站建设惠店
  • 专做婚礼logo的网站做搜狗pc网站快速排
  • 北京网站建设公司分享网站改版注意事项做网站需要多大空间
  • 主机网站建设制作天津西青区天气预报
  • 网站没有内容可以备案吗横向网站源码
  • 做的网站浏览器提示不安全站优化
  • dede移动端网站源码电子商务网站建设开题报告