做外贸卖小商品是哪个网站,手机首页设计,做美容美发学校网站公司,华为网站的建设目标为了进一步了解模型的能力#xff0c;我们需要某个指标来衡量#xff0c;这就是性能度量的意义。有了一个指标#xff0c;我们就可以对比不同的模型了#xff0c;从而知道哪个模型相对好#xff0c;哪个模型相对差#xff0c;并通过这个指标来进一步调参以逐步优化我们的… 为了进一步了解模型的能力我们需要某个指标来衡量这就是性能度量的意义。有了一个指标我们就可以对比不同的模型了从而知道哪个模型相对好哪个模型相对差并通过这个指标来进一步调参以逐步优化我们的模型。1. 正确率、精确率和召回率 假设你有一台用来预测某种疾病的机器这台机器需要用某种疾病的数据作为输入输出只可能是两种信息之一有病或者没病。虽然机器的输出只有两种但是其内部对疾病的概率估计p是一个实数。机器上还有一个旋钮用来控制灵敏度阈值a。因此预报过程是这样子首先用数据计算出p然后比较p和a的大小pa输出有病检测结果为阳性,pa就输出没病检测结果为阴性。 如何评价这台机器的疾病预测性能呢这里就要注意了并不是每一次都能准确预报的机器就是好机器因为它可以次次都预报有疾病把a调很低自然不会漏掉但是在绝大多数时候它都只是让大家虚惊一场称为虚警相反从不产生虚警的机器也不一定就是好机器因为它可以天天都预报没有病把a调很高——在绝大数时间里这种预测显然是正确的但也必然漏掉真正的病症称为漏报。一台预测能力强的机器应该同时具有低虚警和低漏报。精确率高意味着虚警少能保证机器检测为阳性时事件真正发生的概率高但不能保证机器检测为阴性时事件不发生。相反召回率高意味着漏报少能保证机器检测为阴性时事件不发生的概率高但不能保证机器检测为阳性时事件就一定发生。 先介绍几个常见的模型评估术语现在假设分类目标只有两类正例Positive和负例Negative分别是真正例True Positives, TP模型正确预测为正类的样本数。真负例True Negatives, TN模型正确预测为负类的样本数。假正例False Positives, FP模型错误预测为正类的样本数实际上是负类。假负例False Negatives, FN模型错误预测为负类的样本数实际上是正类。 1正确率Accuracy(TPTN)/(所有样本数PN)最常见的评价指标适用于样本均衡分布的情况衡量整体分类准确性即所有正确预测的样本数占总样本数的比例。 2错误率Error RateFPFN)/(所有样本数PN)与正确率相反描述被分类器错分的比例对某一个实例来说分对与分错是互斥事件。 3灵敏度SensitiveTP/P表示的是所有正例中被分对的比例衡量了分类器对正例的识别能力。 4特效度SpecificityTN/N表示的是所有负例中被分对的比例它衡量了分类器对负例的识别能力。 5精确度PrecisionTP/(TPFP)也叫精度针对预测结果而言衡量模型预测为正类的样本中实际为正类的比例反映了预测为正类的准确性。 6召回率RecallTP/(TPFN)TP/P灵敏度Sensitive针对原来的样本而言表示的是样本中的正例有多少被预测正确了度量有多少个正例被分为正例。 比如我们一个模型对15个样本进行预测然后结果如下 真实值0 1 1 0 1 1 0 0 1 0 1 0 1 0 0 预测值1 1 1 1 1 0 0 0 0 0 1 1 1 0 1精度(precision, 或者PPV, positive predictive value) TP / (TP FP) 5 / (54) 0.556召回(recall, 或者敏感度sensitivity真阳性率TPRTrue Positive Rate) TP / (TP FN)在上面的例子中召回 5 / (52) 0.714特异度(specificity或者真阴性率TNRTrue Negative Rate) TN / (TN FP)在上面的例子中特异度 4 / (42) 0.667