徐州网站开发信息,微网站栏目设置,网站建设及解决方案,哪个网站可以做视频片头梯度下降算法(Gradient Descent)梯度下降算法几种变体
梯度下降算法(Gradient Descent)
梯度下降算法是一种用于求解函数最小值的一阶优化算法。在机器学习和深度学习中#xff0c;梯度下降算法被广泛用于模型训练#xff0c;通过迭代的方式调整模型参数#xff0c;以最小…梯度下降算法(Gradient Descent)梯度下降算法几种变体
梯度下降算法(Gradient Descent)
梯度下降算法是一种用于求解函数最小值的一阶优化算法。在机器学习和深度学习中梯度下降算法被广泛用于模型训练通过迭代的方式调整模型参数以最小化损失函数。 梯度下降算法的基本思想是在函数的梯度或者说斜率指向的方向上函数值下降得最快。因此如果我们想要找到函数的最小值可以从函数的某个初始点出发沿着梯度的反方向因为我们要减小函数值逐步迭代最终达到函数的局部最小值点。
梯度下降算法的迭代公式通常表示为 x n e w x o l d − α ∇ f ( x o l d ) x_{new} x_{old} - \alpha \nabla f(x_{old}) xnewxold−α∇f(xold)
其中 x o l d x_{old} xold是当前迭代点的坐标。 α \alpha α 是学习率步长它决定了在梯度方向上每一步前进的距离。 ∇ f ( x o l d ) \nabla f(x_{old}) ∇f(xold) 是函数 f ( x ) f(x) f(x) 在点 x o l d x_{old} xold的梯度它是一个向量指向函数增长最快的方向。 x n e w x_{new} xnew 是下一个迭代点的坐标。
梯度下降算法几种变体
假设有一个损失函数 J ( θ ) J(\theta) J(θ)其中 θ \theta θ 是模型参数我们的目标是通过调整 θ \theta θ 来最小化损失函数。
批量梯度下降Batch Gradient Descent
批量梯度下降使用所有训练样本来计算梯度然后更新参数。其更新规则可以表示为 θ θ − α ⋅ ∇ J ( θ ) \theta \theta - \alpha \cdot \nabla J(\theta) θθ−α⋅∇J(θ)
其中 α \alpha α 是学习率 ∇ J ( θ ) \nabla J(\theta) ∇J(θ) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 的梯度。批量梯度下降的更新规则考虑了所有样本的梯度信息因此可以保证每次更新的方向是最优的但计算量较大。
随机梯度下降Stochastic Gradient Descent
随机梯度下降每次只使用一个随机样本来计算梯度并根据该梯度更新参数。其更新规则可以表示为 θ θ − α ⋅ ∇ J ( θ ; x ( i ) , y ( i ) ) \theta \theta - \alpha \cdot \nabla J(\theta; x^{(i)}, y^{(i)}) θθ−α⋅∇J(θ;x(i),y(i))
其中 ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 是随机选择的一个训练样本 ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta; x^{(i)}, y^{(i)}) ∇J(θ;x(i),y(i)) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 在样本 ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 处的梯度。随机梯度下降每次更新只考虑一个样本因此更新的方向可能不是最优的但计算量较小。
小批量梯度下降Mini-batch Gradient Descent
小批量梯度下降是批量梯度下降和随机梯度下降的折中每次更新使用一小部分批量样本来计算梯度并根据平均梯度更新参数。其更新规则可以表示为 θ θ − α ⋅ 1 ∣ B ∣ ∑ ( x ( i ) , y ( i ) ) ∈ B ∇ J ( θ ; x ( i ) , y ( i ) ) \theta \theta - \alpha \cdot \frac{1}{|\mathcal{B}|} \sum_{(x^{(i)}, y^{(i)}) \in \mathcal{B}} \nabla J(\theta; x^{(i)}, y^{(i)}) θθ−α⋅∣B∣1(x(i),y(i))∈B∑∇J(θ;x(i),y(i)) 其中 B \mathcal{B} B 是随机选择的小批量样本集合 ∣ B ∣ |\mathcal{B}| ∣B∣ 是批量大小 ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta; x^{(i)}, y^{(i)}) ∇J(θ;x(i),y(i)) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 在批量样本 ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 处的梯度。小批量梯度下降综合了批量梯度下降和随机梯度下降的优点既可以保证一定的更新稳定性又可以减少计算量。