电商网站开发思路模版,微信公众号免费开通,旅游网站设计策划书,分销渠道系统误差的计算 softmax 经过softmax处理后所有输出节点概率和为1
损失#xff08;激活函数#xff09; 多分类问题#xff1a;输出只可能归于某一个类别#xff0c;不可能同时归于多个类别。
误差的反向传播 求w的误差梯度
权值的更新
首先是更新输出层和隐藏层之间的权重…误差的计算 softmax 经过softmax处理后所有输出节点概率和为1
损失激活函数 多分类问题输出只可能归于某一个类别不可能同时归于多个类别。
误差的反向传播 求w的误差梯度
权值的更新
首先是更新输出层和隐藏层之间的权重。更新权重我们首先需要知道损失梯度损失梯度实际上是损失根据所需要的更新的权重求偏导而要求解这个偏导我们要通过链式法则来求解。成功求解损失梯度后要通过梯度下降的方法来更新我们的权重。这里的损失梯度前面的系数我们称之为学习率直观意义去理解实际上就是步长。 这个参数是我们人为调整的但是学习率不宜过大也不易过小。过大可能会导致损失无法收敛过小可能会导致损失收敛的速度过慢或者会陷入局部最优解的问题中。因此学习率我们不能随意取值需要通过后续不断地迭代来获取最优学习率。
接着我们需要进一步更新我们的隐藏层和输入层之间的权重对于这里的损失梯度我们同样是通过链式法则得到损失梯度的表达式过程基本与前面保持一致。但是这里有两个注意点第一这里通过链式法则最后得到的损失梯度的结果会用到我们前面更新过的权重所以说反向传播的顺序是不可逆的。第二对与隐藏层和输入层之间权重的更新是多个损失项更新的叠加。通过上述的推到过程我们可以求得我们所需的损失梯度得到损失梯度后通过梯度下降我们可以得到隐藏层和输入层之间更新后的权重。
至此我们已经完成了通过误差的反向传播实现了一次完整的权重的更新。后面的过程就是在正向传播更新输出然后再反向更新权重循环迭代直到损失收敛或者是达到设定的迭代次数一次神经网络的训练完成。 优化器
使网络更快地得到收敛