如何在网站网站做代理,怎样建设有价值的网站,新零售社交电商系统,工程公司取名大全逻辑回归
二分类情况
对于二分类问题#xff0c;在线性可分的情况下#xff0c;试图构建一个判别式 W ′ X ′ b {WXb} W′X′b#xff0c;为了便于操作将判别式增广为 W X {WX} WX。 W x i { 0 , x i ∈ w 1 , Y 1 0 , x i ∈ w 2 , Y 0 {Wx_i}\begin{cas…逻辑回归
二分类情况
对于二分类问题在线性可分的情况下试图构建一个判别式 W ′ X ′ b {WXb} W′X′b为了便于操作将判别式增广为 W X {WX} WX。 W x i { 0 , x i ∈ w 1 , Y 1 0 , x i ∈ w 2 , Y 0 {Wx_i}\begin{cases} \ 0, \quad x_i \in w_1,Y1\\ 0, \quad x_i \in w_2,Y0 \end{cases} Wxi{ 0,xi∈w1,Y10,xi∈w2,Y0 为了将其表示为概率的方式我们对概率建模将其缩放为 [ 0 , 1 ] [0,1] [0,1]的范围上所以我们利用sigmoid函数 1 1 e − x \frac{1}{1e^{-x}} 1e−x1。
由此我们设分类为 w 1 w_1 w1的概率为 P ( Y 1 ∣ x ) 1 1 e − W x P(Y1|x)\frac{1}{1e^{-Wx}} P(Y1∣x)1e−Wx1 设 P ( Y 1 ∣ x i ) P ( x i ) P ( Y 0 ∣ x i ) 1 − P ( x i ) P(Y1|x_i)P(x_i)\\ P(Y0|x_i)1-P(x_i) P(Y1∣xi)P(xi)P(Y0∣xi)1−P(xi) 由此构建似然函数 L ( W ) ∏ [ P ( x i ) ] y i [ 1 − P ( x i ) ] ( 1 − y i ) L(W)\prod[P(x_i)]^{y_i}[1-P(x_i)]^{(1-y_i)} L(W)∏[P(xi)]yi[1−P(xi)](1−yi)
对似然函数取对数 I n ( L ( W ) ) ln ( ∏ [ P ( x i ) ] y i [ 1 − P ( x i ) ] ( 1 − y i ) ) ∑ ( ln ( [ P ( x i ) ] y i ) ln ( [ 1 − P ( x i ) ] ( 1 − y i ) ) ) ∑ ( y i ln ( [ P ( x i ) ] ) ( 1 − y i ) ln ( [ 1 − P ( x i ) ] ) ) ∑ [ y i ⋅ W x i − ln ( 1 e W x i ) ] \begin{aligned} In(L(W)) \ln(\prod[P(x_i)]^{y_i}[1-P(x_i)]^{(1-y_i)})\\ \sum (\ln([P(x_i)]^{y_i})\ln([1-P(x_i)]^{(1-y_i)}))\\ \sum ({y_i}\ln([P(x_i)]){(1-y_i)}\ln([1-P(x_i)]))\\ \sum[y_i\cdot Wx_i-\ln(1e^{Wx_i})] \end{aligned} In(L(W))ln(∏[P(xi)]yi[1−P(xi)](1−yi))∑(ln([P(xi)]yi)ln([1−P(xi)](1−yi)))∑(yiln([P(xi)])(1−yi)ln([1−P(xi)]))∑[yi⋅Wxi−ln(1eWxi)] 为了最大化似然即最小化似然的负数
使似然除以样本总数n减少梯度爆炸出现的概率再乘以-1将求最大值问题转化为求最小值问题 J ( W ) − 1 N ∑ ( ln ( [ P ( x i ) ] y i ) ln ( [ 1 − P ( x i ) ] ( 1 − y i ) ) ) J(W)-\frac{1}{N}\sum (\ln([P(x_i)]^{y_i})\ln([1-P(x_i)]^{(1-y_i)})) J(W)−N1∑(ln([P(xi)]yi)ln([1−P(xi)](1−yi))) 采用梯度下降的方法 ∂ J ( W ) ∂ W − 1 N ∑ ( y i − P ( x i ) ) x i \frac{\partial J(W)}{\partial W}-\frac{1}{N}\sum (y_i-P(x_i))x_i ∂W∂J(W)−N1∑(yi−P(xi))xi 更新 W W W: W k 1 W k − α ∂ J ( W ) ∂ W , k 为迭代次数 , α 为学习率 W^{k1}W^{k}-\alpha\frac{\partial J(W)}{\partial W},\quad k为迭代次数,\alpha为学习率 Wk1Wk−α∂W∂J(W),k为迭代次数,α为学习率 当 ∣ ∣ W k 1 − W k ∣ ∣ ||W^{k1}-W^{k}|| ∣∣Wk1−Wk∣∣小于阈值时或者当 k k k达到最大迭代次数时停止迭代。
逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数非线形映射使得逻辑回归称为了一个优秀的分类算法。本质上来说两者都属于广义线性模型但他们两个要解决的问题不一样逻辑回归解决的是分类问题输出的是离散值线性回归解决的是回归问题输出的连续值。
多分类问题
为了实现多分类我们引入一个softmax函数 softmax ( x i ) e x i ∑ j e x j \text{softmax}(x_i) \frac{e^{x_i}}{\sum_j e^{x_j}} softmax(xi)∑jexjexi来代替Sigmoid函数同构建模型 Y W X i YWX_i YWXi其中 Y Y Y为一个列向量第 i i i个数表示第 i i i个类别的概率。
其中修改损失函数: J ( W ) − 1 n [ ∑ i 1 n ∑ j 1 k 1 { j ( i ) j } ⋅ log ( e W x i ∑ l 1 k e W x i ) ] J(W)-\frac{1}{n}\left[\sum_{i1}^n\sum_{j1}^k 1_{\{j^{(i)}j\}}\cdot\log (\frac{e^{Wx_i}}{\sum_{l1}^k e^{Wx_i}})\right] J(W)−n1[i1∑nj1∑k1{j(i)j}⋅log(∑l1keWxieWxi)] 其中 1 { j ( i ) j } 1_{\{j^{(i)}j\}} 1{j(i)j}表示第 i i i类分类正确时为1否则为0 k k k为类别数。