门户网站直接登录系统,珠海有什么好的网站推广公司,厦门seo报价,东莞大岭山有什么好玩的地方BN本质上解决的是反向传播过程中的梯度问题。 详细点说#xff0c;反向传播时经过该层的梯度是要乘以该层的参数的#xff0c;即前向有#xff1a; 那么反向传播时便有#xff1a; 那么考虑从l层传到k层的情况#xff0c;有#xff1a; 上面这个 便是问题所在。因为网络… BN本质上解决的是反向传播过程中的梯度问题。 详细点说反向传播时经过该层的梯度是要乘以该层的参数的即前向有 那么反向传播时便有 那么考虑从l层传到k层的情况有 上面这个 便是问题所在。因为网络层很深如果 大多小于1那么传到这里的时候梯度会变得很小比如 而如果 又大多大于1那么传到这里的时候又会有梯度爆炸问题 比如 。BN所做的就是解决这个梯度传播的问题因为BN作用抹去了w的scale影响。 具体有 () () 那么反向求导时便有了 可以看到此时反向传播乘以的数不再和 的尺度相关也就是说尽管我们在更新过程中改变了 的值但是反向传播的梯度却不受影响。更进一步 即尺度较大的 将获得一个较小的梯度在同等的学习速率下其获得的更新更少这样使得整体 的更新更加稳健起来。 总结起来就是BN解决了反向传播过程中的梯度问题梯度消失和爆炸同时使得不同scale的 整体更新步调更一致。 转载于:https://www.cnblogs.com/mengxiangtiankongfenwailan/p/9895117.html