怎么查看网站的域名,wordpress的注入,网络销售怎么找客源,网站建设 官在最优化学习系列中#xff0c;第一次就说的是牛顿法#xff0c;但是那是在一维搜索上的#xff0c;它其实就是将函数f在x处利用泰勒公式展开#xff0c;得到它的近似函数#xff0c;进而求解最小值。本节内容主要说明牛顿法在多维数据上的迭代公式。最优化学习笔记中讲到… 在最优化学习系列中第一次就说的是牛顿法但是那是在一维搜索上的它其实就是将函数ff在xx处利用泰勒公式展开得到它的近似函数进而求解最小值。本节内容主要说明牛顿法在多维数据上的迭代公式。最优化学习笔记中讲到的最速下降法是一种速度比较快的优化方法但是最速下降法只用到了函数的一阶导数这种方法并不总是最高效的。而这里说的牛顿法用到了二阶导数它的效率可能比最速下降法更优。 当目标函数f:Rn→Rf: \mathbb{R^n} \to \mathbb{R}上二阶连续可微时将函数ff在x(k)x^{(k)}处进行泰勒展开并且不考虑三阶及以上的项那么可得到函数ff的二阶近似项:
f(x)≈f(x(k))+(x−x(k))Tg(k)+12(x−x(k))TF(x(k))(x−x(k))=q(x)
f(\boldsymbol{x}) \approx f(\boldsymbol{x}^{(k)}) + (\boldsymbol{x-{x}^{(k)}})^T\boldsymbol{g}^{(k)}+\frac{1}{2}(\boldsymbol{x-{x}^{(k)}})^T\boldsymbol{F(x^{(k)})}(\boldsymbol{x-{x}^{(k)}}) = q(\boldsymbol{x})其中g(k)∇f(x(k)),F(x(k))\boldsymbol{g}^{(k)} = \nabla f(\boldsymbol{x}^{(k)}), \boldsymbol{F(x^{(k)})}是f(x(k))f(\boldsymbol{x}^{(k)})黑塞矩阵将q应用局部极小点的一届必要条件
0∇q(x)g(k)F(x(k))(x−x(k))\boldsymbol{0} = \nabla q(\boldsymbol{x}) =\boldsymbol{g}^{(k)} + \boldsymbol{F(x^{(k)})}(\boldsymbol{x-{x}^{(k)}}) 如果F(x(k))0\boldsymbol{F(x^{(k)})} > 0, 则函数qq的极小值点为:
x(k+1)=x(k)−F(x(k))−1g(k)
\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} -\boldsymbol{F(x^{(k)})} ^{-1}\boldsymbol{g}^{(k)}需要说明的是在上述过程中需要求解一个nscript typemath/tex idMathJax-Element-3483n/script维的线性齐次方程组这对效率很有影响应该设计一个更为高效的方法。如果黑塞矩阵是非正定的那么牛顿法也将存在问题后边也将会针对问题提出相应的修正方法。