php的网站模板,云设计平台,常用的网站开发平台api,乐山住房和城乡建设厅网站由于使用的统计相关系数比较频繁#xff0c;所以这里就利用几篇文章简单介绍一下这些系数。相关系数#xff1a;考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量#xff1a;X、Y#xff0c;最终计算出的相关系数的含义可以有如下理解#xff1a;(1)、… 由于使用的统计相关系数比较频繁所以这里就利用几篇文章简单介绍一下这些系数。相关系数考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量X、Y最终计算出的相关系数的含义可以有如下理解(1)、当相关系数为0时X和Y两变量无关系。(2)、当X的值增大(减小)Y值增大(减小)两个变量为正相关相关系数在0.00与1.00之间。(3)、当X的值增大(减小)Y值减小(增大)两个变量为负相关相关系数在-1.00与0.00之间。相关系数的绝对值越大相关性越强相关系数越接近于1或-1相关度越强相关系数越接近于0相关度越弱。通常情况下通过以下取值范围判断变量的相关强度相关系数 0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关 0.0-0.2 极弱相关或无相关皮尔森(pearson)相关系数在这三大相关系数中spearman和kendall属于等级相关系数亦称为“秩相关系数”是反映等级相关程度的统计分析指标。今天暂时用不到所以现在只做pearson的相关研究。 首先放上公式 公式定义为 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间接近0的变量被成为无相关性接近1或者-1被称为具有强相关性。根据以上公式python3实现代码def pearson(vector1, vector2):n len(vector1)#simple sumssum1 sum(float(vector1[i]) for i in range(n))sum2 sum(float(vector2[i]) for i in range(n))#sum up the squaressum1_pow sum([pow(v, 2.0) for v in vector1])sum2_pow sum([pow(v, 2.0) for v in vector2])#sum up the productsp_sum sum([vector1[i]*vector2[i] for i in range(n)])#分子num分母dennum p_sum - (sum1*sum2/n)den math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))if den 0:return 0.0return num/den现在用两个向量测试一下vector1 [2,7,18,88,15790,177,570]vector2 [3,5,15,90,180, 88,160,580]运行结果为0.998可见这两组数是高度正相关的。此外从上面的公式我们知道皮尔森相关性系数是协方差与标准差的比值所以它对数据是有比较高的要求的第一 实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢因为我们在求皮尔森相关性系数以后通常还会用t检验之类的方法来进行皮尔森相关性系数检验而 t检验是基于数据呈正态分布的假设的。第二 实验数据之间的差距不能太大或者说皮尔森相关性系数受异常值的影响比较大。例如心跳与跑步的例子万一这个人的心脏不太好跑到一定速度后承受不了突发心脏病那这时候我们会测到一个偏离正常值的心跳(过快或者过慢甚至为0)如果我们把这个值也放进去进行相关性分析它的存在会大大干扰计算的结果的。