当前位置: 首页 > news >正文

买空间做网站生意网官方网站

买空间做网站,生意网官方网站,做新闻微网站,网站建设做网站多少钱Large Language Models to Diffusion Finetuning 目录 1. 概述 2. 研究背景 3. 方法 3.1 用于 LM 微调的高斯扩散 3.2 架构 4. 主要实验结果 5. 结论 1. 概述 本文提出了一种新的微调方法——LM to Diffusion (L2D)#xff0c;旨在赋予预训练的大语言模型#xff08;…Large Language Models to Diffusion Finetuning 目录 1. 概述 2. 研究背景 3. 方法 3.1 用于 LM 微调的高斯扩散 3.2 架构 4. 主要实验结果 5. 结论 1. 概述 本文提出了一种新的微调方法——LM to Diffusion (L2D)旨在赋予预训练的大语言模型Large Language Models, LLMs测试时可扩展计算能力。 研究发现通过在推理过程中增加扩散步数模型的准确性可以单调增加从而提高在数学、编程和推理等下游任务中的性能。 此外该方法可以结合强大的引导技术优化计算资源的动态分配同时保持语言模型的单步生成能力。 本文的主要贡献包括 提出 L2D 微调方法结合语言模型的自回归能力和扩散模型的多步推理能力利用语言模型的预测来更新扩散状态。证明 L2D 可扩展计算能力通过增加计算资源提高推理质量。提升 LMs 在数学、编程和推理任务上的表现同时保留其单步生成能力。实现高效微调L2D 不修改模型原始参数仅需修改少量参数即可在多个任务上取得显著提升。   2. 研究背景 当前自回归autoregressive大语言模型在推理能力上存在一定的局限性主要体现在 无法根据任务的复杂度调整计算资源。生成结果的质量受限于单步预测而无法进行多步优化。 扩散模型Diffusion Models在视觉领域的成功启发了研究人员尝试将其应用于语言建模以引入多步推理的能力。然而由于离散文本数据的特殊性现有的扩散语言模型在性能上落后于自回归模型。 3. 方法 3.1 用于 LM 微调的高斯扩散 L2D 通过将 LMs 视为单步扩散模型并在其基础上扩展多步推理能力从而增强 LLM 的推理能力而不会影响其原始的单步生成能力。 语言建模在有限词汇表 V 上定义的目标分布 p_1 上运行。给定一个由标签 y 索引的 token x_1该 token 与来自目标数据分布 p_1 的先前 token c 的上下文一起采样我们的扩散损失公式如下 使用公式 3 训练扩散模型可以解释为标准的下一个 token 预测其中为模型提供了一个额外的扩散 token x_t包含有关目标 y 的一定程度的知识范围从无信息t 0到完美信息t 1。 当 t 0 时LM 本质上是用与 L2D 相同的预测目标进行训练的此时 x_0 与目标 y 完全不相关。遵循算法 1 的推理涉及从模型的 logit 中迭代采样越来越准确的下一个 token ˆx直到采样预算 T。传统的 LM 推理可以再次被视为此过程的特例T 1其中仅使用模型的第一个样本来预测 y。 这些设计选择的目的是 L2D 旨在通过微调方法扩展预先训练的 LM而不是从头开始学习新模型。 虽然从一开始就完全采用扩散训练可能看起来更为普遍但我们认为这可能会失去传统自回归建模所固有的一些训练可扩展性和强大的归纳偏差。正是这些偏差使传统自回归建模在语言领域得到广泛确立。 3.2 架构 L2D 的实现设计为预训练 transformer 的模块化扩展以有效利用扩散的多步扩展能力同时保留其原始的单步生成能力。 L2D 在其架构中引入了一条 并行扩散路径其中传播扩散 token x_t 的隐藏表示仅在最后一层影响冻结的主 LM 路径。 L2D 使用 transformer 架构以及与主路径 f_{θ_l} 相同数量的块来实现扩散路径 f_{θ_d} 。为了充分利用预训练 LM 的知识扩散路径中的所有层也都使用来自 θ_l 的权重进行初始化。扩散路径中的 transformer 由一系列残差 MLP 和交叉注意模块组成。虽然 MLP 模块遵循与 f_{θ_l} 中相应模块相同的结构但交叉注意模块专门参数化 query 和输出线性层。具体而言在交叉注意期间目标 token y_k 的扩散 token x^k_t 会关注从 f_{θ_l} 中相应的自注意模块计算出的所有先前的 key 和 value。最终只在所有块之后即 LM 的线性头之前将 f_θ 中处理的信息整合回主路径。具体来说 将这两条路径与元素加权和 f_{θ_l} w_d·f_{θ_d} 合并其中扩散 token x^k_t 的重新缩放潜变量被添加到前一个 token x^{k−1} 的潜变量中。 4. 主要实验结果 研究者在多个基准测试benchmark上对 L2D 进行了实验包括数学任务GSM8K、MATH编程任务HumanEval、MBPP知识推理任务MMLU、MMLU-Pro 增加扩散步数计算量能显著提高推理能力但性能提升在一定步数后趋于稳定。  L2D 在所有测试集上均提升了语言模型的性能特别是在数学和编程任务上表现尤为明显。 L2D 兼容现有的微调方法如 LoRA 和全参数微调且比传统微调方法更高效。 引导技术Classifier-Free Guidance 使 L2D 在特定任务上的表现进一步提升允许用户在生成过程中指定任务需求。 5. 结论 L2D 通过结合扩散模型的推理增强能力使大语言模型能够更高效地利用计算资源提高复杂任务的推理能力。这项研究为未来的大语言模型微调提供了一条新的方向通过引入扩散计算框架使模型能够智能调整计算资源提高推理质量在多个领域展现出了良好的潜力。 【一个比较关心且重要的问题新添加的扩散路径导致的额外计算开销是多少原文并未提及】 论文地址https://arxiv.org/abs/2501.15781 进 Q 学术交流群922230617
http://www.zqtcl.cn/news/761241/

相关文章:

  • 网站建设说明哈尔滨网站建设渠道
  • 一 网站建设管理基本情况设计类的网站
  • wordpress产品编辑如何优化wordpress
  • 网站后台更新缓存失败网站平台规划方案
  • 网站开发需求分析主要内容saas建站系统是怎么实现的
  • 做qq头像的网站有哪些wordpress怎么部署到虚拟linux服务器
  • 征求网站建设企业网站建设word
  • 市民服务中心网站建设小型公众号开发
  • 服装网站建设策划书论文基层建设刊物网站
  • 网站建设合同技术开发合同范本wordpress备份和还原
  • 物流信息平台网站建设一流本科专业建设点网站
  • 天猫网站建设的目标是什么装潢设计软件
  • 电商网站首页图片网站功能模块建设
  • 邮件服务器是不是网站服务器黄江网站建设公司
  • 科技部网站方案网页设计网站设计欣赏
  • 自贡建设机械网站网站策划与运营课程认知
  • 公司做网站该注意哪些廊坊seo
  • 网站开发目录高尔夫 wordpress
  • 三只松鼠网站建设不做网站做百家号
  • 石家庄网站关键词推广淘宝网站建设设计模板
  • 马鞍山什么房产网站做的好网速
  • 国外做兼职网站软件园二期做网站的公司
  • 淘客网站备案教程网页设计与制作教程十四五规划
  • 哪些网站可以做外部锚文本网页设计个人简历怎么做
  • 福州网站营销北京著名网站建设公司
  • 导购网站开发 源码wordpress 获取总页数
  • 网站名查找wordpress评论人
  • 网络推广最好的网站有哪些wordpress怎么用万网域名
  • 大连仟亿科技网站建设公司 概况网络信用贷款哪个好
  • 配置了iis打不开网站外贸建站哪个最便宜