织梦手机网站分亨链接怎么做,建筑工程网校官网,佛山市建设工程有限公司,网站开发流程比较合理1、什么是广义线性模型#xff08;generalize linear model#xff09;#xff1f;
普通线性回归模型是假设X为自变量#xff0c;Y为因变量#xff0c;当X是一维的#xff0c;y是一维的#xff0c;共进行n次观测#xff0c;则 其中#xff0c;w是待估计的参数#x…1、什么是广义线性模型generalize linear model
普通线性回归模型是假设X为自变量Y为因变量当X是一维的y是一维的共进行n次观测则 其中w是待估计的参数称为回归系数b是随机误差统计学相关书籍会写,服从正态分布称该模型为一元线性回归。当X为多维时y是一维称模型是多元线性回归公式为 因为b是服从正态分布的重要假设因变量也服从正态分布。
广义线性模型是做了两点补充一是因变量不一定是服从正态分布而是推广到一个指数分布族包含正态分布、二项分布、泊松分布等二是引入联接函数gg满足单调可导自变量和因变量通过联接函数进行关联。常见联接函数有对数函数、幂函数平方根等。
Logits 回归就是广义线性模型随机误差项服从二项分布。
2、介绍LR线性回归原理推导
线性回归的推导通常有两种方式正规方程求解梯度下降法
线性模型
均方误差是求解线性回归的评估指标则损失函数为均方损失公式为
求解偏导数 最终化简为
局部加权线性回归为解决欠拟合问题通过核方法进行局部加权。
当特征比样本数量多时输入数据X矩阵的逆可能不存在因此引入正则化。
Lasso回归引入L1正则化项L1比L2更稀疏目标函数为 Ridge回归引入L2正则化项 3、介绍LR逻辑回归原理推导
概念
几率是指一个事件发生的概率和该事件不发生的概率比值。
线性模型是可以进行回归学习的常见的模型是线性回归但是如果进行分类任务呢找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。考虑到二分类其输出标记是[0,1],可以将线性模型的预测值转换为0或1首先考虑单位阶跃函数 但是单位阶跃函数不连续可以考虑换一个近似单位阶跃函数的替代函数并单调可微则考虑对数几率函数sigmoid函数将预测值转换为接近0,1的值 经过函数变形可得
称为几率反映了x作为正例的相对可能性为对数几率logit在用线性回归模型的预测结果去逼近 真实标记的对数几率因此其对应的模型称为对数几率回归 (logistic regression 亦称 逻辑回归) 。
因为y只取0,1则条件概率分布如下假设h(z)则1-h(z)可以通过极大似然估计来求解w,b。
似然函数为,其中,解释z是可以转换为,将b值加入到矩阵中一下计算
对数化求得对数似然函数问题变成了以对数似然函数为目标函数的最优化问题。
对数似然函数进行求偏导链式法则 组合为 优化策略梯度下降法、牛顿法
每次迭代对参数进行更新
梯度下降法(一阶导信息)是步长。
牛顿法二阶到信息
4、常见优化算法
梯度下降法分为随机梯度下降批量梯度下降mini-batch梯度下降
随机梯度下降局部最优解随机选取样本进行优化收敛速度慢不支持并行
批量梯度下降一次迭代对所有样本进行计算当函数时凸函数时容易求得最小值但是收敛速度较慢。
mini-batch梯度下降是随机梯度下降和批量梯度下降的折中
牛顿法在迭代时需要计算Hessian矩阵当维度较高时计算Hessian矩阵较困难。
拟牛顿法不用二阶偏导数而构造出可以近似海塞矩阵或海塞矩阵的逆的正定对称阵。
5、介绍一下L0,L1,L2
模型选择的典型方法是正则化正则化是结构风险最小化策略的实现在经验风险后边加一个正则化项或罚项。正则化的作用就是选择经验风险与模型复杂度同时较小的模型。常见的正则化方式有
L0:是指向量中非0的元素的个数
L1:先验服从拉普拉斯分布是向量各个元素的绝对值之和可以使得学习得参数具有稀疏性。 L2:先验服从高斯分布是向量各个元素的平方和的1/2方防止模型过拟合。 6、逻辑回归和线性回归的区别和联系
联系都是线性模型在求解超参数时都可以使用梯度下降等优化方法
区别
逻辑回归是解决分类问题线性回归解决回归问题即逻辑回归的因变量是离散值线性回归的因变量是连续值逻辑回归是用极大似然估计建模交叉熵损失函数线性回归是最小二乘法均方误差逻辑回归是假设y服从0-1分布线性回归假设y服从正态分布
7、逻辑回归和SVM对比
联系都是线性模型
区别
LR的损失函数是交叉熵损失函数SVM是合页损失函数hinge loss
SVM只考虑支持向量需要样本数较少。
8、LR的优缺点 优点 1速度快。 2简单易于理解直接看到各个特征的权重。 3能容易地更新模型吸收新的数据。 4如果想要一个概率框架动态调整分类阀值。
缺点 特征处理复杂。需要归一化和较多的特征工程
4、比较LR和GBDT
(1) LR是一种线性模型而GBDT是一种非线性的树模型因此通常为了增强模型的非线性表达能力使用LR模型之前会有非常繁重的特征工程任务
(2) LR是单模而GBDT是集成模型通常来说在数据低噪的情况下GBDT的效果都会优于LR
(3) LR采用梯度下降方法进行训练需要对特征进行归一化操作而GBDT在训练的过程中基于gini系数选择特征计算最优的特征值切分点可以不用做特征归一化。