网站开发专业术语大全,金融投资网站开发,WordPress 书架插件,健康中国app下载这个系列作为TFLOPS和显存消耗的续篇,今天开始正式连载
上一部地址:
LLM 参数,显存,Tflops? 训练篇(5) (qq.com)
前一篇文章举了65B模型的训练所消耗的显存的案例,如果把条件降低一点,我们看一下7B的模型需要多少显存? 2byte的模型静态参数权重(以16bit存储) = 1…这个系列作为TFLOPS和显存消耗的续篇,今天开始正式连载
上一部地址:
LLM 参数,显存,Tflops? 训练篇(5) (qq.com)
前一篇文章举了65B模型的训练所消耗的显存的案例,如果把条件降低一点,我们看一下7B的模型需要多少显存? 2byte的模型静态参数权重(以16bit存储)= 14G 2byte的模型更新参数权重(以16bit存储)= 14G 2byte的梯度(以16bit存储)= 14G 2byte的梯度更新(以16bit存储)=14G 4byte的一阶动量优化器更新(以32bit存储)=28G 4byte的二阶方差优化器更新(以32bit存储)= 28G /