网站建设目的要求,网页编程工具,百度推广去哪里学技术,广州做网站的价格从线性分类器谈起 给定一些数据集合#xff0c;他们分别属于两个不同的类别。例如对于广告数据来说#xff0c;是典型的二分类问题#xff0c;一般将被点击的数据称为正样本#xff0c;没被点击的数据称为负样本。现在我们要找到一个线性分类器#xff0c;将这些数据分为两…从线性分类器谈起 给定一些数据集合他们分别属于两个不同的类别。例如对于广告数据来说是典型的二分类问题一般将被点击的数据称为正样本没被点击的数据称为负样本。现在我们要找到一个线性分类器将这些数据分为两类。用X表示样本数据Y表示样本类别例如1与-1或者1与0。我们线性分类器的目的就是找到一个超平面将两类样本分开。对于这个超平面可以用以下式子描述 对于logistic回归有 其中x为样本x[x1,x2,⋯,xn]为n维向量函g为我们常说的logistic函数g的更一般公式为 为什么要用Logistic函数 分类器中最简单的自然是线性分类器线性分类器中最简单的应该就属于感知器了。在上个世纪五六十年代感知器就出现了 感知器的思想就是对所有特征与权重做点积内积然后根据与阈值做大小比较将样本分为两类。稍微了解一点神经网络的同学对一下这幅图一定不陌生这幅图描述的就是一个感知器。 感知器相当于控制原理中的阶跃函数 这两者的本质都是一致的即通过划定一个阈值然后比较样本与阈值的大小来分类。 这个模型简单直观实现起来也比较容易。但是问题在于这个模型不够光滑。第一假设t010现在有一个样本进来最后计算出来的值为10.01你说这个样本分类应该是为1还是0呢第二这个函数在t0这点有个阶跃,有从0到1的突变导致这点不连续在数学上处理起来也不方便。 因此使用logistic函数对比前面的感知器或者阶跃函数通过logistic函数的图像我们很容易总结出他的以下优点 1.logistic函数的输入范围是−∞→∞而之于刚好为01正好满足概率分布为01的要求。我们用概率去描述分类器自然比单纯的某个阈值要方便很多 2.logistic函数是一个单调上升的函数具有良好的连续性不存在不连续点。
有监督学习 机器学习分为有监督学习无监督学习半监督学习强化学习。对于逻辑回归来说就是一种典型的有监督学习。既然是有监督学习训练集自然可以用如下方式表述 对于这m个训练样本每个样本本身有n维特征。再加上一个偏置项x0 ,则每个样本包含n1维特征 其中x∈Rn1,x01y∈{0,1}
李航博士在统计学习方法一书中给分类问题做了如下定义 分类是监督学习的一个核心问题在监督学习中当输出变量Y取有限个离散值时预测问题便成为分类问题。这时输入变量X可以是离散的也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数称为分类器。分类器对新的输入进行输出的预测称为分类(classification).
为什么要使用logistic函数: 其中一个重要的原因就是要将Hypothesis(NG课程里的说法)的输出映射到0与1之间既 统计学习方法都是由模型策略和算法构成的即统计学习方法由三要素构成可以简单表示为 方法模型策略算法方法模型策略算法 方法模型策略算法
对于logistic回归来说模型自然就是logistic回归策略最常用的方法是用一个损失/代价函数来度量预测错误程度算法则是求解过程。
logistic回归模型 逻辑回归Logistic Regression是机器学习中最常见的一种用于二分类的算法模型由于其数学原理简单易懂作用高效其实际应用非常广泛。虽然带回归二字实则是分类模型下面从logit变换开始。
logit变换 我们在研究某一结果y与一系列因素(x1,x2,⋯ ,xn)之间的关系的时候最直白的想法是建立因变量和自变量的多元线性关系 其中(θ0,θ1,θ2,⋯ ,θn)为模型的参数如果因变量是数值型的话可以解释成某某因素xi变化了多少导致结果y发生了多少变化如果因变量y是用来刻画某特定结果发生的概率0~1呢这时候因素xi变化导致结果y的变化恐怕微乎其微有时候甚至忽略不计。于是我们需要让不显著的线性关系变得显著使得模型能够很好解释随因素的变化结果也会发生较显著的变化这时候人们想到了logit变换下图是对数函数图像 从对数函数的图像来看其在(0,1)之间的因变量的变化是很迅速的也就是说自变量的微小变化会导致因变量的巨大变化这就符合了之前想要的效果。于是对因变量进行对数变换右边依然保持线性关系有下面式子 虽然上式解决了因变量随自变量变化的敏感性问题同时也约束了y的取值范围为(0,∞)。我们知道概率是用来描述某件事发生的可能性事件发生与不发生有对立性结果可以走向必然发生概率为1也可以走向必然不发生概率为0因此概率的取值范围为(0,1)而等式左边y的取值范围是(0,∞)所以需要进一步压缩又引进了几率。
几率 几率odd)是指事件发生的概率与不发生的概率之比假设事件A发生的概率为p不发生的概率为1−p那么事件A的几率为 几率恰好反应了某一事件两个对立面具有很好的对称性下面我们再来看一下概率和几率的关系 首先我们看到概率从0.01不断增大到0.99几率也从0.01随之不断变大到99两者具有很好的正相关系我们再对p向两端取极限有 于是几率的取值范围就在(0∞)这符合我们之前的因变量取值范围的假设。
logistic模型 正因为概率和几率有如此密切对等关系于是想能不能用几率来代替概率刻画结果发生的可能性大小这样既能满足结果对特定因素的敏感性又能满足对称性便有了下面式子 现在我们稍微改一改让等式左边对数变成自然对数lnloge等式右边改成向量乘积形式便有 其中θ(1,θ1,θ2,⋯ ,θn)X(1,x1,x2,⋯ ,xn)T解得 其中e是自然常数保留5位小数是2.71828。这就是我们常见的logistic模型表达式作出其函数图像如下 我们看到logistic/sigmoid函数图像是一条S型曲线以(0,0.5)为对称中心随着自变量x不断增大其函数值不断增大接近1随自变量x不断减小其函数值不断降低接近0函数的取值范围在(0,1)之间且函数曲线在中心位置变化速度最快在两端的变化速率较慢。 从上面的操作我们可以看到逻辑回归模型从最初的线性回归模型基础上对因变量进行logit变换使得因变量对自变量显著同时约束因变量取值范围为0到正无穷大然后用概率表示几率最后求出概率关于自变量的表达式把线性回归的结果压缩在(0,1)范围内这样最后计算出的结果是一个0到1之间的概率值表示某事件发生的可能性大小可以做概率建模这也是为什么逻辑回归叫逻辑回归而不叫逻辑分类。 ---------------------------------------------------------------------------------------------------------
连载。。。。
logistic模型原理与推导过程分析1_LiBiGor的博客-CSDN博客 https://blog.csdn.net/qq_39237205/article/details/121031296
logistic模型原理与推导过程分析2_LiBiGor的博客-CSDN博客 https://blog.csdn.net/qq_39237205/article/details/121031899
logistic模型原理与推导过程分析2_LiBiGor的博客-CSDN博客 https://blog.csdn.net/qq_39237205/article/details/121031899