做视频上传多少个网站,数据库网站制作,建设网站申请,大宗商品平台Scikit-Learn线性回归五#xff1a;岭回归与Lasso回归 1、误差与模型复杂度2、正则化3、Scikit-Learn岭#xff08;Ridge#xff09;回归4、Scikit-Learn Lasso回归 1、误差与模型复杂度 在第二篇文章 Scikit-Learn线性回归(二) 中#xff0c;我们已经给出了过拟合与模型泛… Scikit-Learn线性回归五岭回归与Lasso回归 1、误差与模型复杂度2、正则化3、Scikit-Learn岭Ridge回归4、Scikit-Learn Lasso回归 1、误差与模型复杂度 在第二篇文章 Scikit-Learn线性回归(二) 中我们已经给出了过拟合与模型泛化的概念并使用案例进行了验证
在机器学习中我们通常会将数据划分为两部分一部分用来构建模型然后另一部分用来检验模型的效果。构建模型所用的数据集称为训练集而验证模型的数据集称为测试集。模型在训练集上的误差称为训练误差或经验误差在测试集上的误差称为泛化误差
泛化误差反映了模型对未知数据的预测能力而我们采用最多的也就是通过泛化误差来评价模型的泛化能力。泛化误差刻画了模型算法的经验风险与期望风险之间的偏差和收敛速度
过拟合是指模型在训练集中表现良好而在测试集中表现很差即泛化误差大于经验误差说明拟合过度模型泛化能力降低只能够适用于训练集通用性不强欠拟合则指的是模型在训练集中的表现就很差即经验误差很大 如图所示图一表示过拟合可以看到拟合曲线完美的经过了每一个点模型非常复杂这种情况下经验误差极小但是预测值的方差误差平方和会很大。图二表示欠拟合此时模型过于简单在训练集上的误差就很大。图三则表示一个理想的拟合模型
欠拟合出现的原因是模型复杂度太低。可能是回归模型自变量特征较少或模型不合适。针对欠拟合解决方案是增大模型复杂度可以增加自变量特征或改变模型。例如将一阶多元回归模型升级为多项式回归模型
过拟合出现的原因则是模型复杂度太高或训练集太少。可能是自变量特征过多或训练集数据量太少等。针对过拟合除了增加训练集数据量外还有多种优化算法可以处理。例如正则化
一般情况下误差与模型复杂度之间存在如下关系 如上图所示横坐标表示模型的复杂度纵坐标表示模型的误差。其中偏差误差表示真实值与预测值之间的差值方差表示回归系数的方差即误差平方损失函数/误差平方和为所有样本的偏差平方之和
从图中可得随着模型复杂度的提升方差会不断增大偏差会逐渐减小而泛化误差会受偏差和方差的影响我们的目标是找到泛化误差的最小值这可以通过平衡方差与偏差来实现
2、正则化 未完待续…
3、Scikit-Learn岭Ridge回归
4、Scikit-Learn Lasso回归 参考文章 https://scikit-learn.org.cn/view/84.html#1.5.7%20%E6%95%B0%E5%AD%A6%E5%85%AC%E5%BC%8F https://cloud.tencent.com/developer/article/1556213 https://blog.csdn.net/weixin_46302487/article/details/105637818 https://www.cnblogs.com/wang_yb/p/17910389.html https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html https://blog.csdn.net/qq_45797116/article/details/112488498