珠宝网站开发目的,听歌网站源码,天津网站建设 文率科技,济南网站建设铭盛信息一、类偏斜的误差度量
误差度量的关键性
之前的课程中已经提到了误差分析和设定误差度量值的重要性。评估学习算法并衡量其表现需要使用一个实数#xff0c;这就是误差度量值。然而#xff0c;在某些情况下#xff0c;特别是当处理偏斜类时#xff0c;选择正确的误差度量…一、类偏斜的误差度量
误差度量的关键性
之前的课程中已经提到了误差分析和设定误差度量值的重要性。评估学习算法并衡量其表现需要使用一个实数这就是误差度量值。然而在某些情况下特别是当处理偏斜类时选择正确的误差度量值可能会对算法的性能产生微妙但重要的影响。
偏斜类的问题
偏斜类的情况发生在训练集中某一类实例数量非常多而其他类的实例数量很少或没有的情况下。举例来说如果希望用算法来预测肿瘤是否是恶性的而在训练集中只有0.5%的实例是恶性肿瘤就会面临偏斜类的问题。 查准率和查全率
为了解决偏斜类问题我们引入了两个重要的概念查准率Precision和查全率Recall。 查准率表示在所有预测为正例的样本中实际为正例的比例。计算方式为查准率TP/(TPFP)。在肿瘤预测中查准率高表示在我们预测为恶性的病人中实际上有恶性肿瘤的比例高。 查全率表示在所有实际为正例的样本中成功预测为正例的比例。计算方式为查全率TP/(TPFN)。在肿瘤预测中查全率高表示在所有实际上有恶性肿瘤的病人中成功预测有恶性肿瘤的比例高。 混淆矩阵
为了更清晰地理解查准率和查全率引入了混淆矩阵。混淆矩阵以预测值和实际值的正负情况为基础划分为True Positive真正例、True Negative真负例、False Positive假正例、False Negative假负例四个部分。 二、查准率和查全率之间的权衡
重温查准率和查全率
在之前的课程中我们已经了解了查准率Precision和查全率Recall的概念。查准率表示在所有预测为正例的样本中实际为正例的比例而查全率表示在所有实际为正例的样本中成功预测为正例的比例。 查准率PrecisionPrecision TP/(TPFP)在所有我们预测有恶性肿瘤的病人中实际上有恶性肿瘤的病人的百分比越高越好。 查全率RecallRecall TP/(TPFN)在所有实际上有恶性肿瘤的病人中成功预测有恶性肿瘤的病人的百分比越高越好。 权衡查准率和查全率
假设我们的算法输出的结果在 0-1 之间使用阀值 0.5 来预测真和假。我们可以通过调整阀值来平衡查准率和查全率。如果我们希望提高查准率可以使用比 0.5 更大的阀值如 0.7 或 0.9。反之如果希望提高查全率可以使用比 0.5 更小的阀值如 0.3。
F1 值的引入
为了更有效地权衡查准率和查全率引入了 F1 值F1 Score。F1 值是查准率和查全率的调和平均数计算公式为 F1 值的范围在 0 到 1 之间取得最高值的阀值即为我们选择的阀值。通过计算 F1 值我们可以在查准率和查全率之间找到一个平衡选择一个适当的阀值来优化算法性能。 三、机器学习的数据
在这段视频中我们探讨了机器学习系统设计中一个重要的方面即训练数据的数量对算法性能的影响。在研究中研究人员Michele Banko和Eric Brill进行了一项实验通过使用不同大小的训练数据集来比较不同学习算法的性能。
他们发现随着训练数据集的增大大多数算法表现出相似的性能提升趋势。即使是一些算法可能被认为是“劣等”的但通过提供更多的训练数据它们的性能可能超越一些被认为是“优等”的算法。这引发了一个普遍的共识“在机器学习中取得成功的关键不在于拥有最好的算法而在于拥有最多的数据。” 这个结论的前提条件是首先特征值包含足够的信息使得人类专家能够准确预测值。其次有大量的训练数据且训练的学习算法具有足够多的参数例如逻辑回归、线性回归或神经网络等。
这样的研究结果表明大量的训练数据可以弥补算法的一些不足甚至在某些情况下数据的重要性可能超过选择算法的重要性。因此在实践中获取更多的训练数据可能是提高机器学习算法性能的有效途径。
请注意这个结论并不适用于所有情况而是在特定条件下成立。如果特定问题中特征包含足够信息而且有足够的训练数据那么增加数据量可能是改善算法性能的一种方法。
参考资料
[中英字幕]吴恩达机器学习系列课程
黄海广博士 - 吴恩达机器学习个人笔记