东莞做网站 南城石佳,江苏初中课程基地建设网站,企业网站建设与运营计划书,提升关键词排名软件哪家好本文包括#xff1a;重要概念逻辑斯蒂回归和线性回归二项逻辑斯谛回归模型逻辑斯蒂回顾与几率模型参数估计多项逻辑斯谛回归其它有关数据分析#xff0c;机器学习的文章及社群1.重要概念#xff1a;在正式介绍逻辑斯蒂回归模型之前#xff0c;需要先对一些基本概念有所了解…本文包括重要概念逻辑斯蒂回归和线性回归二项逻辑斯谛回归模型逻辑斯蒂回顾与几率模型参数估计多项逻辑斯谛回归其它有关数据分析机器学习的文章及社群1.重要概念在正式介绍逻辑斯蒂回归模型之前需要先对一些基本概念有所了解如果明白这些概念可以直接跳过。分布函数和密度函数对于一个连续型随机变量密度函数是指该变量在其可取值范围内为一个特定值的概率分布函数即在一个特定值和小于该特定值的范围内出现的概率可以理解为密度函数的面积比率。用逻辑斯蒂分布举例来说下图在密度函数中可以看到在x0时出现峰值即x取0的概率最大从0开始往无穷小和无穷大都在递减。再看分布函数可以看到当x0时密度函数取值为0.5对照密度函数在小于等于0的部分面积是总面积的一半。似然函数在统计学中概率描述了已知参数时的随机变量的输出结果似然则用来描述已知随机变量输出结果时未知参数的可能取值。那么似然函数就是用来求得未知参数的估计值所使用的函数。极大似然估计通过最大化似然函数求得未知参数的估计值。这里讲一下为什么是极大而非其它的方法求参数的估计值。在机器学习中我们有大量的记录构成训练集需要根据训练集进行学习获得模型根据具体的问题我们可以将一个特定的模型套用在这个具体问题中。现在我们有了一个含有未知参数的模型以及大量训练集记录。根据模型我们可以假设Y1的概率为PY0的概率为1-P这里的P包含了模型中的未知参数。假设训练集中有10个记录3个为17个为0那么得到这个最终结果的概率为P^3*(1-P)^7。现在重点来了既然现实情况中已经出现了3个1和7个0的情况那么我们的模型应该让这种情况出现的概率最大因为毕竟这个结果已经出现了。也就是说我们应当最大化P^3*(1-P)^7以此推得P中所包含的未知参数的估计值并最终得到我们想要的模型。2.逻辑斯蒂回归和线性回归在线性回归感知机中我们知道一个分离超平面w·x将特征空间分成两个部分实例在不同的子空间中则被分为相对应的类。但是线性回归的一个问题在于我们不知道一个新输入的实例它属于一个类的概率是多少。换句话说新输入实例在特征空间中的位置可能与分离超平面距离非常近也有可能非常远如果距离较远那么它更有可能被分成它所在一侧对应的类但是如果与超平面的距离非常近说明它被分成另一类的可能性也很大比如被分成A的可能性为51%而分成B类的可能性为49%此时线性回归会将其分为A类而忽略了49%分成B类的可能性也就是说线性回归仅给出结论未给出概率。于是为了得到这一概率我们引入了Sigmoid函数Sigmoid函数能够将线性回归产生的值(-∞∞)转换到(0,1)区间内而概率的取值也在(0,1)内这样就可以显示一个实例被分为一个类的概率是多少了。3.二项逻辑斯谛回归模型首先来看逻辑斯蒂函数的一般形式其分布具有以下分布函数和密度函数式中μ为位置参数γ0为形状参数。分布函数以μ,1/2为中心对称满足形状参数γ的值越小分布函数曲线在中心附近增长得越快。现在我们让μ取0γ取1即得到我们在逻辑斯蒂回归中使用的函数采用上式我们将线性回归产生的值代入到sigmoid函数之中可得二项逻辑斯谛回归模型是一种分类模型由条件概率分布P(Y|X表示。这里随机变量x取值为实数随机变量Y取值为1或0。这样我们就将范围为实数的线性回归产生的值转变为逻辑斯蒂回归中仅在(0,1)范围之内。逻辑斯谛回归仅对二分类的问题有效我们可以比较P(Y1|x)和P(Y0|x)两个条件概率值的大小将实例x分到概率较大的那一类同时也能得知分成两种类别的可能性是多少。4.逻辑斯蒂回归与几率一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p那么该事件的几率是 该事件的对数几率或logit函数是我们将逻辑斯蒂回归的P代入可得通过上式我们知道通过几率的概念对线性函数进行转换可以得到逻辑斯蒂回归公式。一个直观的理解是对于上式分子是y1的概率而分母是y≠1的概率显然wxb越大y1的概率越大也就是实例点x在y1的一侧距离分离超平面越远则y1的概率越大。5.模型参数估计设似然函数为为了计算方便我们对似然函数取对数得到对数似然函数以上公式的第二个等式使用了上一节谈到的几率。注意这里的式子中w和xi都是进行扩展后的w和xi即权值向量中最后一项为bxi最后一项为1。现在根据极大似然估计法对L(w)求导接下来通常采用的方法是梯度下降法及拟牛顿法来求得w的估计值待后续更新。6.多项逻辑斯谛回归逻辑斯蒂回归需要将线性回归通过sigmoid函数进行转换但这种方法仅对二分类的问题有效如果碰到多分类的问题逻辑斯蒂回归就失效了。于是对于多分类的问题我们使用softmax函数代替sigmoid函数可以将softmax函数看做sigmoid函数的推广。Softmax函数Softmax函数计算新输入实例被分为每一个类的概率并选择概率最大的对应的类作为新输入实例的类。多项逻辑斯蒂回归github如果觉得对您有帮助还烦请点击下面的链接帮忙github点个star~谢谢~Zhouxiaonnan/machine-learning-notesandcode所有笔记目录包括《统计学习方法》中各个模型的理论和python复现部分以及数据分析Mysql查询优化。舟晓南所有笔记目录 | 数据分析 | 机器学习 | 深度学习等如何转行数据分析师舟晓南如何转行和学习数据分析 | 工科生三个月成功转行数据分析心得浅谈舟晓南求职数据分析师岗位简历应该如何写工科生三个月成功转行数据分析心得浅谈欢迎关注专栏学习笔记数据分析机器学习深度学习zhuanlan.zhihu.com数据分析机器学习学习社群正式启动~需要学习资料想要加入社群均可私信~在这里会分享各种数据分析相关资源技能学习技巧和经验等等~详情私信一起进步吧写于成都 2020-9-10第一次修改 2020-9-26第二次修改 2020-11-5