网站排名数据,我想创建一个网络平台,做网站的分析报告案例,图片生成链接在线工具最近读到《Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling》这篇论文#xff0c;里面通过实验和理论证明了learning rate和batch size之间的关系#xff0c;觉得很有意思#xff0c;就简答写个blog记录下。
1. 简介
在影响模型训练效果的所有参数中里面通过实验和理论证明了learning rate和batch size之间的关系觉得很有意思就简答写个blog记录下。
1. 简介
在影响模型训练效果的所有参数中batch size与learning rate是最为重要的。随着训练数据的增加为了加快训练效率batch size变的越来越大那么如果选择最佳的learning rate就成为了难题。在SGD优化器中一些研究表明learning rate与batch size之间有平方根[1]线性关系[2]等。在比较大的batch size下一些理论和实验表明 在类Adam优化器中batch size与learning rate之间并没有上面的关系。一开始learning rate随着batch size增大而增大随后达到一个点后会随着batch size增加而降低同时随着训练不断进行 B n o i s e B_{noise} Bnoise会不断后移。 具体关系可以参考下面的图 根据empirical model[3]batch size与optimal learning rate之间有下述的关系 这里的 B n o i s e B_{noise} Bnoise表示数据有效性与训练速度之间的trade-off当Batch size等于 B n o i s e B_{noise} Bnoise时optimal learning rate达到局部最大。对于SGD当B B n o i s e B_{noise} Bnoise时learning rate与batch size呈现线性关系。 对于Adam优化器则呈现平方根关系。
2. 理论 3. 实验 记录在每个batch size下不同的实际处理的step数S与处理的训练样本数E在达到具体loss的时候对应的optimal learning rate可以得到 然后用不同batch size下的optimal learning rate搜索结果估计出类Adam优化器的最大的optimal learning rate 类SGD的最大optimal learning rate为 训练参数如上表所示总共训练了三个模型分别为5层的CNNResNet18及DiltilGPT2. 从上图中可以看出在达到 B n o i s e B_{noise} Bnoise前optimal learning rate随着batch size增加而增加当达到 B n o i s e B_{noise} Bnoise后optimal learning rate会逐渐降低。同时随着训练的不断进行 B n o i s e B_{noise} Bnoise会不断的向右偏移。
4. 总结
一开始learning rate随着batch size增大而增大随后达到一个点后会随着batch size增加而降低同时随着训练不断进行 B n o i s e B_{noise} Bnoise会不断后移。为了加速训练进程可以设计自适应的learning rate和batch size。
5. 参考文献
[1] One weird trick for parallelizing convolutional neural networks[2] Learning rates as a function of batch size: A random matrix theory approach to neural network training[3] An empirical model of large-batch training