做网站充值系统,安装的字体wordpress,做网站类的网站,网站做sem对优化有影响吗4bit/8bit 启动 Mixtral 8*7B 大语言模型 0. 背景1. 修改代码 0. 背景
个人电脑配置实在难以以 float16 运行 Mixtral 8*7B 大语言模型#xff0c;所以参数 4bit 或者 8bit 来启动。
实际测试结果#xff0c;4bit 时推理速度明显变快了#xff0c;8bit 时推理也非常慢。
… 4bit/8bit 启动 Mixtral 8*7B 大语言模型 0. 背景1. 修改代码 0. 背景
个人电脑配置实在难以以 float16 运行 Mixtral 8*7B 大语言模型所以参数 4bit 或者 8bit 来启动。
实际测试结果4bit 时推理速度明显变快了8bit 时推理也非常慢。
使用的推理框架时 fastchat。
1. 修改代码
vi fastchat/model/model_adapter.py修改前
class MistralAdapter(BaseModelAdapter):The model adapter for Mistral AI modelsdef match(self, model_path: str):return mistral in model_path.lower() or mixtral in model_path.lower()def load_model(self, model_path: str, from_pretrained_kwargs: dict):model, tokenizer super().load_model(model_path, from_pretrained_kwargs)model.config.eos_token_id tokenizer.eos_token_idmodel.config.pad_token_id tokenizer.pad_token_idreturn model, tokenizer修改后
class MistralAdapter(BaseModelAdapter):The model adapter for Mistral AI modelsdef match(self, model_path: str):return mistral in model_path.lower() or mixtral in model_path.lower()def load_model(self, model_path: str, from_pretrained_kwargs: dict):# model, tokenizer super().load_model(model_path, from_pretrained_kwargs)tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue)if mixtral in model_path.lower():model AutoModelForCausalLM.from_pretrained(model_path,low_cpu_mem_usageTrue,trust_remote_codeTrue,# attn_implementationflash_attention_2,# load_in_8bitTrue,load_in_4bitTrue,**from_pretrained_kwargs,)else:model AutoModelForCausalLM.from_pretrained(model_path,low_cpu_mem_usageTrue,trust_remote_codeTrue,**from_pretrained_kwargs,)model.config.eos_token_id tokenizer.eos_token_idmodel.config.pad_token_id tokenizer.pad_token_idreturn model, tokenizer完结