当前位置: 首页 > news >正文

网站建设app律师网站素材

网站建设app,律师网站素材,网站流量图片生成,制作网站软件叫什么官网#xff1a;https://huggingface.co/docs/accelerate/package_reference/accelerator Accelerate使用步骤 初始化accelerate对象accelerator Accelerator()调用prepare方法对model、dataloader、optimizer、lr_schedluer进行预处理删除掉代码中关于gpu的操作#xff0…官网https://huggingface.co/docs/accelerate/package_reference/accelerator Accelerate使用步骤 初始化accelerate对象accelerator Accelerator()调用prepare方法对model、dataloader、optimizer、lr_schedluer进行预处理删除掉代码中关于gpu的操作比如.cuda()、.to(device)等让accelerate自行判断硬件设备的分配将loss.backbard()替换为accelerate.backward(loss)当使用超过1片GPU进行分布式训练时在主进程中使用gather方法收集其他几个进程的数据然后在计算准确率等指标 Accelerator对象初始化参数 device_placement (bool, optional, defaults to True) — 是否让accelerate来确定tensor应该放在哪个devicesplit_batches (bool, optional, defaults to False) — 分布式训练时是否对dataloader产生的batch进行split如果True那么每个进程使用的batch size batch size / GPU数量如果是False那么每个进程使用就是batch size总的batch size batch size * GPU数量mixed_precision (str, optional) — 是否使用混合精度训练gradient_accumulation_steps (int, optional, default to 1) — 梯度累加的步数也可以使用GradientAccumulationPlugin插件进行详细配置cpu (bool, optional) — 是否强制使用CPU执行deepspeed_plugin (DeepSpeedPlugin, optional) — 使用此参数调整与DeepSpeed相关的参数也可以使用accelerate config直接配置fsdp_plugin (FullyShardedDataParallelPlugin, optional) — 使用此参数调整FSDPFully Sharded Data Parallel相关参数也可以使用accelerate config直接配置megatron_lm_plugin (MegatronLMPlugin, optional) — 使用此参数调整与MegatronLM相关的参数可以使用accelerate config直接配置step_scheduler_with_optimizer (bool, *optional, defaults to True) – lr_scheduler是否和optimizer同步更新gradient_accumulation_plugin (GradientAccumulationPlugin, optional) — 梯度累积插件 Accelerate常用高阶用法 accelerator.print() 当使用多片GPU训练时打印每个进程的信息替换python的print函数这样在每个server上只打印一次其实就是先使用is_local_main_process判断的print。 accelerator.is_local_main_process 可以当做装饰器使用在一个具有多片GPU的server上只执行一次local表示每台机器。与is_local_main_process对应的是is_main_processis_local_main_process每个server上的主进程is_main_process是所有server的主进程。 wait_for_everyone() 同步控制确保在后续操作之前所有前提操作已完成accelerator.save_model() / load_state_dict / load_checkpoint_in_model 模型保存自动去除掉由于分布式训练在模型上做的包装调用unwrap_model保存state_dict并且可以对大模型文件进行分块存储。并加载保存的模型Accelerate与Transformers库搭配使用进行模型保存 使用accelerator做梯度裁剪 梯度累加gradient accumulation 尤其对于超大规模的模型模型参数本来就已经很大了如果再用很大的batch size进行训练硬件资源吃不消但是如果用很小的batch size训练的话模型稳定性很差所以梯度累加gradient accumulation是一个这种的解决方案其实就是连续执行多次forward前向过程在多次执行期间不进行反向传播每次都是很小的batch size多次就累积成了比较大的batch size然后在累积的结果上做反向传播。Accelerate在梯度累加期间暂停在不同GPU之间的梯度同步进一步减少了通信数据量。 GradientAccumulationPlugin提供了更灵活梯度累加操作除了能指定累加的步数还能指定在累计过程中是否更新lr_scheduler调节器。 autocast混合精度训练 对处于with上下文管理中的模块使用混合精度训练 gather、gather_for_metrics 分布式训练时在不同进程之间回收结果数据Prepare 为分布式训练和混合精度做准备然后以相同的顺序返回它们。reduce跨进程做tensor的reduce操作save_state / load_state保存、加载模型的状态数据unscale_gradients混合训练过程中不对梯度进行缩放 unwrap_model 去掉模型上由prepare加上的用于做分布式训练的包装层在保存模型的时候比较有用 4、使用accelerate执行分布式训练 执行accelerate config根据提问和实际硬件情况设置配置文件执行accelerate test --config_file path_to_config.yaml验证环境配置是否正常执行进行命令进行分布式训练accelerate launch --config_file path_to_config.yaml path_to_script.py --args_for_the_script 5、使用Accelerate在低资源环境下加载大的模型 参考https://huggingface.co/docs/accelerate/usage_guides/big_modeling
http://www.zqtcl.cn/news/504725/

相关文章:

  • 安徽 网站建设丹阳杨文军
  • 燃烧学课程网站建设怎么做网站的登录界面
  • 邹城网站定制wordpress托管套餐
  • 沧州网站优化公司logo网站免费
  • 网站制作公司知道万维科技建设银行企业网站无法打印回单
  • 个人网站做贷款广告知乎关键词搜索
  • 常熟外贸网站建设网站突然显示 建设中
  • 宜昌市住房和城乡建设官方网站泗洪网页设计
  • 计算机软件网站建设北京加盟网站建设
  • 推广网站怎么建设和维护strange wordpress主题
  • 安徽省建设厅网站打不开湘潭做网站找磐石网络一流
  • 沈阳做网站哪好网站建设后续说明
  • 给个网站最新的2021在网站的标题上怎么做图标
  • h5做网站用什么框架seo推广计划
  • 亿企搜网站建设百度网盘怎么领取免费空间
  • 天津网站排名提升如何用h5做网站
  • 外贸公司有必要建设网站吗赣州做网站哪家好
  • 功能型网站设计深圳网站优化效果
  • 郑州定制网站开发规模以上工业企业总产值
  • 锡林浩特市长安网站 建设初步方案廊坊百度推广排名优化
  • 搭建论坛网站的流程企业网络推广软件
  • 中国化工建设网站家居装修设计
  • 铜陵公司做网站大淘客网站建设app
  • 网站面包屑导航织梦做网站的教程
  • 建湖网站建设价格小程序商城哪个平台好
  • 网站域名 被别人备案买房的人都哭了吧
  • 自己做网站 套模板工具磨床东莞网站建设
  • 怎么上传图片到公司网站在深圳注册公司需要什么资料
  • 网站建设的公司哪家好用一段话来解释网站建设
  • 没有文字的网站怎么优化wordpress自定义文章类型模板