网站怎么做前台跟后台的接口,wordpress 4.7.5 漏洞,gta买办公室网站建设中,微信网站建设流程图本文是LLM系列文章#xff0c;针对《QA-LORA: QUANTIZATION-AWARE LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》的翻译。 Qa-lora:大型语言模型的量化感知低秩自适应 摘要1 引言2 相关工作3 提出的方法4 实验5 结论 摘要
近年来#xff0c;大型语言模型(llm)得到了迅速…本文是LLM系列文章针对《QA-LORA: QUANTIZATION-AWARE LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》的翻译。 Qa-lora:大型语言模型的量化感知低秩自适应 摘要1 引言2 相关工作3 提出的方法4 实验5 结论 摘要
近年来大型语言模型(llm)得到了迅速的发展。尽管llm在许多语言理解任务中具有很强的能力但沉重的计算负担在很大程度上限制了llm的应用特别是当需要将它们部署到边缘设备上时。本文提出了一种量化感知的低秩自适应(QA-LoRA)算法。其原因在于量化自由度与自适应自由度不平衡解决方法是采用群算子提高量化自由度降低自适应自由度。QA-LoRA很容易用几行代码实现它为原始LoRA提供了双重能力:(i)在微调期间LLM的权重被量化(例如进入INT4)以减少时间和内存使用;(ii)微调后LLM和辅助权重自然地整合到一个量化模型中而不损失精度。我们将QA-LoRA应用于LLaMA和LLaMA2模型家族并在不同的微调数据集和下游场景中验证了其有效性。代码将在https://github.com/ yuhuixu1993/qa-lora上提供。
1 引言
2 相关工作
3 提出的方法
4 实验
5 结论
本文提出了一种将量化感知引入llm低秩自适应的有效方法——QA-LoRA。QA-LoRA的核心在于量化和低级别适应的分组操作关键的洞察力来自于平衡这两个方面的自由度。QA-LoRA易于实现可以跨各种基础模型和语言理解任务进行推广并且在微调和推理阶段都具有计算效率。在LLaMA模型族上的大量实验验证了QA-LoRA的有效性。