医院网站建设系统,建设银行网上银行网站进入不了,代网站备案费用,北京王府井大楼在线性回归算法求解中#xff0c;常用的是最小二乘法与梯度下降法#xff0c;其中梯度下降法是最小二乘法求解方法的优化#xff0c;但这并不说明梯度下降法好于最小二乘法#xff0c;实际应用过程中#xff0c;二者各有特点#xff0c;需结合实际案例具体分析。
最后有…在线性回归算法求解中常用的是最小二乘法与梯度下降法其中梯度下降法是最小二乘法求解方法的优化但这并不说明梯度下降法好于最小二乘法实际应用过程中二者各有特点需结合实际案例具体分析。
最后有两份最小二乘法和逻辑斯特推导方法
1.最小二乘法求解线性回归
线性回归的基本模型设定为 在此基础上构建代价函数 通过代价函数 求偏导并令其等于零所得到 的即为模型参数的值 最终得到 这便是由最小二乘法所求得的模型参数θ的值。这里需要满的条件是XTX-1存在的情况。在机器学习中XTX-1不可逆的原因通常有两种一种是自变量间存在高度多重共线性例如两个变量之间成正比那么在计算XTX-1时可能得不到结果或者结果无效另一种则是当特征变量过多即复杂度过高而训练数据相对较少m小于等于n的时候也会导致XTX-1不可逆。XTX-1不可逆的情况很少发生如果有这种情况其解决问题的方法之一便是使用正则化以及岭回归等来求最小二乘法。
2.梯度下降法求解线性回归
梯度下降法是一种在学习算法及统计学常用的最优化算法其思路是对theta取一随机初始值可以是全零的向量然后不断迭代改变θ的值使其代价函数Jθ根据梯度下降的方向减小直到收敛求出某θ值使得Jθ最小或者局部最小。其更新规则为 其中alpha为学习率。Jθ对θ的偏导决定了梯度下降的方向将Jθ带入更新规则中得到 对于上式由于每一次迭代都需要遍历所有训练数据一次如果训练数据庞大则复杂度比较高便使得收敛速度变得很慢所以被称作批量梯度下降法。当更新参数的时候不必遍历全部训练数据只要一个训练数据就可以这种方法会比较快地收敛所以区别于批量梯度下降法被称为随机梯度下降法。
梯度下降法中学习率alpha代表了逼近最低点的速率既不能太大也不能太小过大可能会出现不断地在最低点附近反复震荡的情况无法收敛而过小则导致逼近的速率太慢即需要迭代更多次才能逼近最低点。因此可以用一些数值试验。
另外在解决实际问题中往往会出现x里的各个特征变量的取值范围间的差异非常大如此会导致在梯度下降时由于这种差异而使得Jθ收敛变慢特征缩放便是解决该类问题的方法之一特征缩放的含义即把各个特征变量缩放在一个相近且较小的取值范围中例如-1至1,0.5至2等其中较简单的方法便是采用均值归一化也就是标准化处理。
3. 二者的应用比较
相对于最小二乘法来说梯度下降法须要归一化处理以及选取学习速率且需多次迭代更新来求得最终结果而最小二乘法则不需要。
相对于梯度下降法来说最小二乘法须要求解XTX-1其计算量为on3当训练数据集过于庞大的话其求解过程非常耗时而梯度下降法耗时相对较小。
所以当模型相对简单训练数据集相对较小用最小二乘法较好对于更复杂的学习算法或者更庞大的训练数据集用梯度下降法较好一般当特征变量小于10的四次方时使用最小二乘法较稳妥而大于10的四次方时则应该使用梯度下降法来降低计算量。 ## 个人推导笔记仅供参考