网站登录界面图片用什么软件做,如何做信用网站截图,汕头seo推广优化,青海省建设厅网站职称评审表什么是loss? loss: loss是我们用来对模型满意程度的指标。loss设计的原则是#xff1a;模型越好loss越低#xff0c;模型越差loss越高#xff0c;但也有过拟合的情况。 loss function: 在分类问题中#xff0c;输入样本经过含权重矩阵θ的模型后会得出关于各个类别…什么是loss? loss: loss是我们用来对模型满意程度的指标。loss设计的原则是模型越好loss越低模型越差loss越高但也有过拟合的情况。 loss function: 在分类问题中输入样本经过含权重矩阵θ的模型后会得出关于各个类别的分值如何通过分值与样本的标签来得到我们对模型的满意程度就是Loss function的主要工作了。训练过程中通过调整参数矩阵θ来降低loss使用模型更优。多分类问题中常用Softmax分类器与多类SVM分类器。 Softmax分类器 Softmax与logistict回归 Softmax分类器将类别分值用负对数转换为概率来表示相对于multiclass-SVM的输出更为直观。 Softmax分类器的损失函数为交叉熵损失 (cross-entropy loss)即通常所说的Softmax loss。logistic回归是用来解决二分类问题的其损失函数与Softmax与有很相似的形式。 Softmax的损失函数 //1表示指示函数即真值返回1否则返回0 \begin{align} J(\theta) - \frac{1}{m} \left[ \sum_{i1}^{m} \sum_{j1}^{k} 1\left\{y^{(i)} j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l1}^k e^{ \theta_l^T x^{(i)} }}\right] \end{align} logistic回归的损失函数 \begin{align} J(\theta) -\frac{1}{m} \left[ \sum_{i1}^m y^{(i)} \log h_\theta(x^{(i)}) (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right] \end{align} 可以看出将1式中k2即可得到2式 Softmax对样本x的分类结果假设函数 \begin{align} h_\theta(x^{(i)}) \begin{bmatrix} p(y^{(i)} 1 | x^{(i)}; \theta) \ p(y^{(i)} 2 | x^{(i)}; \theta) \ \vdots \ p(y^{(i)} k | x^{(i)}; \theta) \end{bmatrix} \frac{1}{ \sum_{j1}^{k}{e^{ \theta_j^T x^{(i)} }} } \begin{bmatrix} e^{ \theta_1^T x^{(i)} } \ e^{ \theta_2^T x^{(i)} } \ \vdots \ e^{ \theta_k^T x^{(i)} } \ \end{bmatrix} \end{align} logistic回归的分类结果(假设函数) \begin{align} h_\theta(x) \frac{1}{1\exp(-\theta^Tx)}, \end{align} 但3式与4式有什么关系呢 原来Softmax预测出每个类别的概率具有“参数冗余”的特性。“参数冗余”是指若矩阵θ为代价函数的极小值点那么θ-Ψ也为代价函数的极小值点。(ψ为向量并且矩阵-向量矩阵每个列向量-向量) \begin{align} p(y^{(i)} j | x^{(i)} ; \theta) \frac{e^{(\theta_j-\psi)^T x^{(i)}}}{\sum_{l1}^k e^{ (\theta_l-\psi)^T x^{(i)}}} \ \frac{e^{\theta_j^T x^{(i)}} e^{-\psi^Tx^{(i)}}}{\sum_{l1}^k e^{\theta_l^T x^{(i)}} e^{-\psi^Tx^{(i)}}} \ \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l1}^k e^{ \theta_l^T x^{(i)}}}. \end{align} 这时令ψθ1、k2可得到(3) 等价于(4)的结论 所以Softmax其实是logistic regression将二分类问题推广到多分类问题的一般形式。 但是Softmax分类器与k个logistic回归分类器还是有区别的 通常当k个类别之间互斥时使用kk的Softmax分类器当k个类别之间与交集时使用k个logistic回归分类器。 Softmax分类器为什么要正则化损失项 求解loss最小值时往往不是简单利用“参数冗余”将θ10而是加入权重衰减(正则化损失)来惩罚过大的参数值。加入正则化损失后的代价函数为 \begin{align}\notag J(\theta) - \frac{1}{m} \left[ \sum_{i1}^{m} \sum_{j1}^{k} 1\left\{y^{(i)} j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l1}^k e^{ \theta_l^T x^{(i)} }} \right] \frac{\lambda}{2} \sum_{i1}^k \sum_{j0}^n \theta_{ij}^2 \end{align} 其中第二项为正则化损失荐加入该项的加一个好处是将代价函数变为一个凸函数。 简单实例 在一个三类别模型预测的过程中假设输出的分值向量为[1, -2, 0] 则分类计算过过程 [1-2 0] [e1, e-2, e0][2.71, 0.14, 1]//熵值化 [0.7 0.04 0.26] //归一化为概率 算法实践 后续补充 Multiclass SVM 基本思想正常确类别的分值比错误类别的分值高出一个间距(margin) Multiclass SVM分类器的损失函数为hinge loss也称为SVM loss。 hinge loss 算法实践 已知 在一个三类别模型预测的过程中假设输出的分值向量为[13 -7 11]我们知道标签为1即第一个类别为正确类别\(\Delta10\)计算过程 因为\(y_{i}\)1, 所以\(j只能2、3\)\[L_{2}max(0,-7-1310)0\]\[L_{3}max(0,11-1310)8\] 所以\[L_{i}088\] 从上面的计算过程可以看出SVM的损失函数想要正确分类类别\(y_{i}\)的分数比不正确类别分数高而且至少要高\(\Delta\)。如果不满足这点就开始计算损失值。 正则化损失 提高模型泛化能力避免过拟合。 从公式上来看 若两个等比例的权重权重的范数越小越好若两个权重范数相等权重的系数大小分布越分均等越好 直观来看 从直观上来看这是因为w_2的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量这就会鼓励分类器最终将所有维度上的特征都用起来而不是强烈依赖其中少数几个维度。MutiSVM VS SVM 未完待续 补充实验 reference: cs231n cs231n softmax 小马奔腾 转载于:https://www.cnblogs.com/fariver/p/6204261.html