天津百度整站优化服务,高端网站建设开发,人力招聘网站建设任务执行书,重庆网站建设 优化原文来自DataLearnerAI官方网站#xff1a;
不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051703254378255
大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任…原文来自DataLearnerAI官方网站
不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051703254378255
大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务识别特定的指令等。但是大模型的微调需要的显存较高而且比较难以估计。与推理不同微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。 在此前的文章中我们已经解释了大模型推理和显存之间的估算方法需要多少GPU显存才能运行预训练大语言模型大语言模型参数规模与显存大小的关系估算方法~。即大模型推理显存约等于模型参数乘以2而微调则只给了方法没有具体公式。
不同参数规模的大模型在不同微调方法下所需的显存大小十分有参考意义
微调方法模型精度70亿参数模型130亿参数模型300亿参数模型650亿参数模型8x7BMoEFull16160GB320GB600GB1200GB1000GBFreeze1620GB40GB120GB240GB200GBLoRA1616GB32GB80GB160GB120GBQLoRA810GB16GB40GB80GB80GBQLoRA46GB12GB24GB48GB32GB
这里的微调方法介绍参考和数据来源见原文不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)
这里比较重要的参考是8×7B的MoE模型。这个显然就是前段时间刚刚发布的Mixtral大模型即Mistral 8×7B MoE详情参考MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍效果超过LLaMA2-70B和GPT-3.5推理速度快6倍。这个模型实际参数450亿每次推理只会激活120亿的参数。这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。也就是说MoE最大的优点应该是提升推理速度。推理现存与微调显存实际上不会有什么优势根据实际测试Mixtral 8×7B MoE推理最少也要90多G的显存。如果使用QLoRA方法那么显存大小会显著降低。不过这也会降低一点精度。
原文来自DataLearnerAI不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)