台州网站开发公司,缪斯装饰设计有限公司,wordpress默认登录地址,什么叫展示型网站说明
最实用的一种利用大语言模型的方式是进行微调。预训练模型与我们的使用场景一定会存在一些差异#xff0c;而我们又不可能重头训练。
微调的原理并不复杂#xff0c;载入模型#xff0c;灌新的数据#xff0c;然后运行再训练#xff0c;保留checkpoints。但是不同项…说明
最实用的一种利用大语言模型的方式是进行微调。预训练模型与我们的使用场景一定会存在一些差异而我们又不可能重头训练。
微调的原理并不复杂载入模型灌新的数据然后运行再训练保留checkpoints。但是不同项目的代码真的不太一样每一个都要单独去看的话比较费神。
本篇简单讨论一下用LLaMA-Factory微调模型的体验。
内容
1 LLaMA-Factory LLaMA-Factoryhttps://github.com/hiyouga/LLaMA-Factory是零隙智能SeamLessAI开源的低代码大模型训练框架它集成了业界最广泛使用的微调方法和优化技术并支持业界众多的开源模型的微调和二次训练开发者可以使用私域数据、基于有限算力完成领域大模型的定制开发。LLaMA-Factory还为开发者提供了可视化训练、推理平台一键配置模型训练实现零代码微调LLM。自2023年5月开源以来成为社区内最受欢迎的微调框架github星数已超9K。 github项目地址
从目前的开源三大系(LLaMA, ChatGLM, BLOOM )来看,数量上的确还是Lamma系的多。 2 部署环境
用仙宫云部署价格比较实惠且环境比较新。 注意云盘默认挂在 /root/cloud下所以文件可以存在这里。
3 拉取项目并启动服务
由于环境基本已经适配好的安装过程也很快
git clone https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factory
pip3 install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/然后执行web前端的启动命令
python3 ./scr/train_web.py就会唤起一个前端因为服务已经关掉了忘了截图
4 拉取模型文件
我使用chatglm3-6b-base进行测试。
由于hugging face有墙 modelscope就是比较好的选择。
两种方式
包方式事实证明不是那么好模型包存放的位置还要靠grep找出来
pip install modelscope
from modelscope import snapshot_download
model_dir snapshot_download(ZhipuAI/chatglm3-6b, revision v1.0.0)git方式
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git5 在web端配置
本次是连通性测试我就修改了一下模型所在的文件夹位置然后选择lora别的都没改就开始跑了。
整个微调的时间大约在4小时期间显存慢慢上升到21G总体上应该是可用的。 今天主要就是调通后续再更新。