监控做斗鱼直播网站,最新聊天记录做图网站,唐山网站建设拓,西安有哪些好玩的介绍
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型#xff0c;基于 General Language Model (GLM) 架构#xff0c;具有 62 亿参数。结合模型量化技术#xff0c;用户可以在消费级的显卡上进行本地部署#xff08;INT4 量化级别下最低只需 6GB 显存#xff09;。…介绍
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型基于 General Language Model (GLM) 架构具有 62 亿参数。结合模型量化技术用户可以在消费级的显卡上进行本地部署INT4 量化级别下最低只需 6GB 显存。 ChatGLM-6B 使用了和 ChatGPT 相似的技术针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练辅以监督微调、反馈自助、人类反馈强化学习等技术的加持62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答 为了方便下游开发者针对自己的应用场景定制模型我们同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) INT4 量化级别下最低只需 7GB 显存即可启动微调。
硬件需求
量化等级最低 GPU 显存推理最低 GPU 显存高效参数微调FP16无量化13 GB14 GBINT88 GB9 GBINT46 GB7 GB
CPU 部署
如果你没有 GPU 硬件的话也可以在 CPU 上进行推理但是推理速度会更慢。使用方法如下需要大概 32GB 内存
model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).float()如果你的内存不足可以直接加载量化后的模型
# INT8 量化的模型将THUDM/chatglm-6b-int4改为THUDM/chatglm-6b-int8
model AutoModel.from_pretrained(THUDM/chatglm-6b-int4,trust_remote_codeTrue).float()截图 地址
ChatGLM-6B