在线编辑ppt的网站,wordpress指定页面连接数据库,wordpress文章管理,深圳新恒基建设公司首先#xff0c;逻辑回归是一个概率模型#xff0c;不管x取什么值#xff0c;最后模型的输出也是固定在#xff08;0,1#xff09;之间#xff0c;这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ#xff0c;我们估计参数的时候常用的就是极大似然估计#xf…首先逻辑回归是一个概率模型不管x取什么值最后模型的输出也是固定在0,1之间这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ我们估计参数的时候常用的就是极大似然估计为什么呢可以这么考虑 比如有n个xxi对应yi1的概率是piyi0的概率是1-pi当参数θ取什么值最合适呢可以考虑 n个x中对应k个1和n-k个0这里k个取1的样本是确定的这里就假设前k个是1后边的是0.平时训练模型拿到的样本也是确定的如果不确定还要排列组合 则(p1*p2*...*pk)*(1-pk1)*(1-pk2)*...*(1-pn)最大时θ是最合适的。联合概率最大嘛就是总体猜的最准就是尽可能使机器学习中所有样本预测到对应分类得概率整体最大化。 其实上边的算式就是极大似然估计的算式 对应到LR中 总之就是因为LR是概率模型对概率模型估计参数用极大似然原理上边说了 然后为什么用logloss作为cost function呢 主要的原因就是因为似然函数的本质和损失函数本质的关系 对数似然函数 可以看到对数似然函数和交叉熵函数在二分类的情况下形式是几乎一样的可以说最小化交叉熵的本质就是对数似然函数的最大化。 对数似然函数的本质就是衡量在某个参数下整体的估计和真实情况一样的概率越大代表越相近 而损失函数的本质就是衡量预测值和真实值之间的差距越大代表越不相近。 他们两个是相反的一个关系至于损失函数的惩罚程度可以用参数修正我们这里不考虑。 所以在对数似然前边加一个负号代表相反这样就把对数似然转化成了一个损失函数然后把y取0和1的情况分开写成分段函数就是 意义就是当y1时h1时没有损失h越趋近0损失越大 当y0时h0没有损失h越趋近1损失越大。 转载于:https://www.cnblogs.com/hum0ro/p/10243115.html