网站建设与规划方向,清远网站设计公司,做航模的网站,专业建设 教学成果奖网站根据pytorch中的backward()函数的计算#xff0c;当网络参量进行反馈时#xff0c;梯度是被积累的而不是被替换掉#xff1b;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积#xff0c;因此这里就需要每个batch设置一遍zero_grad 了。
其实这里还可以…根据pytorch中的backward()函数的计算当网络参量进行反馈时梯度是被积累的而不是被替换掉但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积因此这里就需要每个batch设置一遍zero_grad 了。
其实这里还可以补充的一点是如果不是每一个batch就清除掉原有的梯度而是比如说两个batch再清除掉梯度这是一种变相提高batch_size的方法对于计算机硬件不行但是batch_size可能需要设高的领域比较适合比如目标检测模型的训练。