荣胜网络 宁波网站建设,江西网站开发的公司,百度手机助手,网站关键词代码在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。
下面分别针对这四种参数进行说明。
欢迎关注公众号 模型参数 model_type模型类型,例如bloom,llama,baichuan,qwen等。 model_name_or_path模型名称或者路径。 tokenizer_name_or…在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。
下面分别针对这四种参数进行说明。
欢迎关注公众号 模型参数
model_type模型类型,例如bloom,llama,baichuan,qwen等。
model_name_or_path模型名称或者路径。
tokenizer_name_or_path分词器名称或者路径。如果进行了词表扩充或裁剪,则tokenizer_name_or_path和model_name_or_path不同。
load_in_8bit是否以8bit加载模型。
load_in_4bit是否以4bit加载模型。
use_fast_tokenizer是否使用快速分词器。
torch_dtype张量数值类型
device_map设置指定设备(也就是在哪张显卡上)
数据参数
dataset_name数据集的名称#