手机网页打不开但是有网什么原因,网络推广优化的英文,网站源码资源,哪个网站注册域名好参考论文#xff1a; low rank adaption of llm 背景介绍#xff1a;
自然语言处理的一个重要范式包括对一般领域数据的大规模预训练和对特定任务或领域的适应处理。在自然语言处理中的许多应用依赖于将一个大规模的预训练语言模型适配到多个下游应用上。这种适配通常是通过…参考论文 low rank adaption of llm 背景介绍
自然语言处理的一个重要范式包括对一般领域数据的大规模预训练和对特定任务或领域的适应处理。在自然语言处理中的许多应用依赖于将一个大规模的预训练语言模型适配到多个下游应用上。这种适配通常是通过更新预训练模型所有参数的微调来进行的。
部署完整独立的微调模型实例每次都将花费高昂的代价。所以我们提出了低秩自适应的方法即LoRA。它冻结了预训练模型的权重值并给Transformer架构的每一层都注入了可训练的秩分解矩阵从而极大的减少了下游任务需要训练的参数数量。虽然使用了更少的训练参数提供了更高的训练吞吐量。
Pytorch架构集成了LoRA模型并提供了我们针对RoBERTa, DeBERTa, and GPT-2的应用集成和相关模型链接为 https://github.com/microsoft/LoRA。
很多时候人们通过只调整部分参数或者给新任务添加外部模块的方式来解决这个问题。这样在每个任务中除预训练模型外我们只需要额外存储和加载少量特定任务所需的参数即可从而极大地提高了部署时的操作效率。但是现有技术在扩展模型深度或减少模型可用序列长度Li et al. (2018a)时通常会引入推理时延。更重要的是这些方法往往无法与微调基线相匹配从而在效率和模型质量之间产生权衡。 图1
我们受到Li et al. (2018a); Aghajanyan et al. (2020)等工作的启发他们发现学习到的过参数化模型实际上存在于一个低内在维度上。我们假设模型自适应过程中权重的变化也具有较低的“内在秩”这帮助我们提出的低秩自适应LoRA方法。LoRA允许我们在适配过程中通过优化密集层变化的秩分解矩阵的方式来间接的训练神经网络的密集层同时保持预训练权重不变。如图1所示。以GPT-3 175B 模型为例我们发现即便全秩达到了12288一个非常低的秩图1中r为1或者2也足够了。这使得LoRA在存储和计算方面都很高效。
LoRA具备以下几个关键优势
一个预训练模型可以用来针对不同任务建立为很多小的LoRA模块。我们可以冻结共享模型仅仅通过更换图1中的AB矩阵来快速地切换任务从而显著降低存储需求和任务切换开销。当使用自适应优化器时LoRA使训练更加高效并将硬件门槛降低了3倍因为对于大多数参数我们不需要计算梯度或维护的优化器状态。相反我们只优化注入的、小得多的低秩矩阵。在构造上我们简单的线性设计允许我们在部署时将可训练矩阵与冻结的权重合并同时保证了相较于全微调模型的性能并不产生推理时延。LoRA与许多现有方法不冲突并且可以与其中许多方法相结合比如前缀调整法。我们在附录E中提供了一个这样的例子。