网站建设需求分析调研表,建筑品牌网站,如何下载与安装wordpress,百度一下你就知道原版#x1f935;♂️ 个人主页: AI_magician #x1f4e1;主页地址#xff1a; 作者简介#xff1a;CSDN内容合伙人#xff0c;全栈领域优质创作者。 #x1f468;#x1f4bb;景愿#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长#xff01;#xff01;… ♂️ 个人主页: AI_magician 主页地址 作者简介CSDN内容合伙人全栈领域优质创作者。 景愿旨在于能和更多的热爱计算机的伙伴一起成长 ♂️声明本人目前大学就读于大二研究兴趣方向人工智能硬件虽然硬件还没开始玩但一直很感兴趣希望大佬带带 【深度学习 | 核心概念】那些深度学习路上必经的核心概念确定不来看看 一 作者 计算机魔术师 版本 1.0 2023.8.27 摘要 本系列旨在普及那些深度学习路上必经的核心概念文章内容都是博主用心学习收集所写欢迎大家三联支持本系列会一直更新核心概念系列会一直更新欢迎大家订阅 该文章收录专栏 [✨— 《深入解析机器学习从原理到应用的全面指南》 —✨] 聚类详解 ARI评价法兰德系数AMI评价法互信息V-measure评分FMI评价法轮廓系数评价法Calinski-Harabasz指数评价法分类模型评价法 以下是常用的评价算法名称
方法名称真实值最佳值sklearn****函数ARI评价法兰德系数需要1.0adjusted_rand_scoreAMI评价法互信息需要1.0adjusted_mutual_info_scoreV-measure评分需要1.0completeness_scoreFMI评价法需要1.0fowlkes_mallows_score轮廓系数评价法不需要畸变程度最大silhouette_scoreCalinski-Harabasz指数评价法不需要相较最大calinski_harabaz_score ARI评价法兰德系数ARI通过比较聚类结果和真实分类之间的成对样本相似性来衡量聚类的质量其数值范围从-1到1值越高表示聚类结果与真实分类越相似。 AMI评价法互信息AMI利用互信息的概念衡量聚类结果和真实分类之间的共享信息量其数值范围也从0到1值越高表示聚类结果越好。 V-measure评分V-measure综合考虑了聚类结果的均一性和完整性通过计算均一性和完整性的加权平均得到评分数值范围也是从0到1。 FMI评价法FMI通过比较聚类结果和真实分类中成对样本关系来评估聚类的相似度数值范围从0到1值越高表示聚类结果越好。 轮廓系数评价法轮廓系数结合了样本与其所属簇的平均距离和样本与其他簇的平均距离来度量聚类结果的紧密度和分离度数值范围从-1到1。 Calinski-Harabasz指数评价法Calinski-Harabasz指数通过计算簇内离差平方和和簇间离差平方和的比值来评估聚类结果的质量数值越大表示聚类结果越好。
上表总共列出了6种评价的方法其中前4种方法均需要真实值的配合才能够评价聚类算法的优劣后2种则不需要真实值的配合。但是前4种方法评价的效果更具有说服力并且在实际运行的过程中在有真实值做参考的情况下聚类方法的评价可以等同于分类算法的评价。
除了轮廓系数以外的评价方法在不考虑业务场景的情况下都是得分越高其效果越好最高分值均为1。而轮廓系数则需要判断不同类别数目的情况下其轮廓系数的走势寻找最优的聚类数目。
在具备真实值作为参考的情况下几种方法均可以很好地评估聚类模型。在没有真实值作为参考的时候轮廓系数评价方法和Calinski-Harabasz指数评价方法可以结合使用。
ARI评价法兰德系数
ARIAdjusted Rand Index调整兰德指数是一种用于衡量聚类结果与真实分类之间的相似度的评价方法。它通过比较聚类结果与真实分类之间的成对样本相似性来计算得分范围从-1到1其中1表示完全匹配0表示随机匹配-1表示完全不匹配。
ARI的计算公式如下 A R I ∑ i j ( n i j 2 ) − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) 1 2 [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) ARI \frac{{\sum_{ij} \binom{n_{ij}}{2} - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}}{{\frac{1}{2} [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}] - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}} ARI21[∑i(2ai)∑j(2bj)]−[∑i(2ai)∑j(2bj)]/(2n)∑ij(2nij)−[∑i(2ai)∑j(2bj)]/(2n)
其中 n n n是样本总数 n i j n_{ij} nij表示同时被聚类结果和真实分类划分为同一簇的样本对数量 a i a_i ai表示被聚类结果划分为第 i i i簇的样本数量 b j b_j bj表示被真实分类划分为第 j j j类的样本数量。
AMI评价法互信息
AMIAdjusted Mutual Information调整互信息是一种用于评估聚类结果与真实分类之间的相似度的指标。它基于信息论中的互信息概念度量聚类结果和真实分类之间的共享信息量。
AMI的计算公式如下 A M I I ( X ; Y ) − E [ I ( X ; Y ) ] max ( H ( X ) , H ( Y ) ) − E [ I ( X ; Y ) ] AMI \frac{I(X;Y) - E[I(X;Y)]}{\max(H(X), H(Y)) - E[I(X;Y)]} AMImax(H(X),H(Y))−E[I(X;Y)]I(X;Y)−E[I(X;Y)]
其中 I ( X ; Y ) I(X;Y) I(X;Y)表示聚类结果和真实分类的互信息 H ( X ) H(X) H(X)和 H ( Y ) H(Y) H(Y)分别表示聚类结果和真实分类的熵 E [ I ( X ; Y ) ] E[I(X;Y)] E[I(X;Y)]是互信息的期望值用于校正由于随机因素引起的误差。
V-measure评分
V-measure是一种用于评估聚类结果的均一性homogeneity和完整性completeness的综合指标。它结合了这两个度量以平衡聚类结果的质量。
V-measure的计算公式如下 V 2 × ( h × c ) ( h c ) V \frac{2 \times (h \times c)}{(h c)} V(hc)2×(h×c)
其中 h h h表示聚类结果的均一性 c c c表示聚类结果的完整性。均一性和完整性的计算公式如下 h 1 − H ( C ∣ K ) H ( C ) h 1 - \frac{H(C|K)}{H(C)} h1−H(C)H(C∣K) c 1 − H ( K ∣ C ) H ( K ) c 1 - \frac{H(K|C)}{H(K)} c1−H(K)H(K∣C)
其中 H ( C ∣ K ) H(C|K) H(C∣K)表示给定聚类结果 K K K的条件熵 H ( C ) H(C) H(C)表示真实分类的熵 H ( K ∣ C ) H(K|C) H(K∣C)表示给定真实分类 C C C的条件熵 H ( K ) H(K) H(K)表示聚类结果的熵。
FMI评价法
FMIFowlkes-Mallows Index是一种用于评估聚类结果与真实分类之间的相似度的指标。它通过比较聚类结果中的成对样本关系与真实分类中的成对样本关系来计算得分。
FMI的计算公式如下 F M I T P ( T P F P ) ( T P F N ) FMI \frac{TP}{\sqrt{(TP FP)(TP FN)}} FMI(TPFP)(TPFN) TP
其中 T P TP TP表示聚类结果和真实分类中成对样本被划分到同一簇的数量 F P FP FP表示聚类结果中被错误划分到同一簇的样本对数量 F N FN FN表示真实分类中被错误划分到同一簇的样本对数量。
轮廓系数评价法
轮廓系数Silhouette Coefficient是一种用于评估聚类结果的紧密度和分离度的指标。它结合了样本与其所属簇的平均距离和样本与其他簇的平均距离用于衡量聚类结果的质量。
轮廓系数的计算公式如下 s b − a max ( a , b ) s \frac{b - a}{\max(a, b)} smax(a,b)b−a
其中 a a a表示样本与其所属簇的平均距离 b b b表示样本与其他簇的平均距离。对于每个样本轮廓系数的取值范围在-1到1之间值越接近1表示样本聚类得越好值越接近-1表示样本更适合被划分到其他簇值接近0表示样本在两个簇之间的边界。
Calinski-Harabasz指数评价法
Calinski-Harabasz指数是一种用于评估聚类结果的紧密度和分离度的指标。它基于簇内的离差平方和Within-Cluster Sum of SquaresWCSS和簇间的离差平方和Between-Cluster Sum of SquaresBCSS用于衡量聚类结果的质量。
Calinski-Harabasz指数的计算公式如下 C H BCSS / ( k − 1 ) WCSS / ( n − k ) CH \frac{{\text{BCSS}/(k-1)}}{{\text{WCSS}/(n-k)}} CHWCSS/(n−k)BCSS/(k−1)
其中 k k k表示簇的数量 n n n表示样本的总数。Calinski-Harabasz指数的值越大表示聚类结果的质量越好。
分类模型评价法
最后一种评价evaluation方法是分类classification。通过使用 k-means标签训练分类模型然后在单独的数据子集中对其进行测试我们可以看到分类器的表现良好并不是完全任意的。说明学习效果良好且存在可分类的特征。 到这里如果还有什么疑问欢迎私信博主问题哦博主会尽自己能力为你解答疑惑的如果对你有帮助你的赞是对博主最大的支持