当前位置: 首页 > news >正文

做网站招标沧州微网网络信息有限公司

做网站招标,沧州微网网络信息有限公司,wordpress删除图片,学专科电子商务后悔死了在前面的文章中讲过#xff0c;很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法#xff1a;描述统计方法和统计检验方法。01.描述统计方法描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方…在前面的文章中讲过很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法描述统计方法和统计检验方法。01.描述统计方法描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。1.1 Q-Q图此Q-Q非用于聊天的QQQ是quantile的缩写即分位数。分位数就是将数据从小到大排序然后切成100份看不同位置处的值。比如中位数就是中间位置的值。Q-Q图的x轴为分位数y轴为分位数对应的样本值。x-y是散点图的形式通过散点图可以拟合出一条直线如果这条直线是从左下角到右上角的一条直线则可以判断数据符合正态分布否则则不可以。拟合出来的这条直线和正态分布之间有什么关系呢为什么可以根据这条直线来判断数据是否符合正态分布呢。我们先来想一下正态分布的特征正态分布的x轴为样本值从左到右x是逐渐增大的y轴是每个样本值对应的出现的概率。概率值先上升后下降且在中间位置达到最高。可以把Q-Q图中的y轴理解成正态分布中的x轴如果拟合出来的直线是45度可以保证中位数两边的数值分布是一样的即正态分布中基于中位数左右对称。在Python中可以使用如下代码来绘制Q-Q图from scipy import stats fig plt.figure() res stats.probplot(x, plotplt) plt.show() 与Q-Q图类似的是P-P图两者的区别是前者的y轴是具体的分位数对应的样本值而后者是累计概率。1.2 直方图直方图分为两种一种是频率分布直方图一种是频数分布直方图。频数就是样本值出现的次数频率是某个值出现的次数与所有样本值出现总次数的比值。在Python中我们可以使用如下代码来绘制频数分布直方图import matplotlib.pyplot as plt plt.hist(x,bins 10) 可以使用如下代码来绘制频率分布直方图import seaborn as sns sns.distplot(x) 与直方图类似的还有茎叶图茎叶图是类似于表格形式去表示每个值出现的频次。02.统计检验方法讲完了描述统计的方法我们来看一下统计检验的方法。统计检验的方法主要有SW检验、KS检验、AD检验、W检验。SW检验中的S就是偏度W就是峰度峰度和偏度与正态的关系我们在前面的文章有讲过。2.1 KS检验KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布也可以用于检验两个样本之间的显著性差异。如果是判断某个样本是否符合某个已知分布比如正态分布则需要先计算出标准正态分布的累计分布函数然后在计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系如果D小于边界值则可以认为样本的分布符合已知分布否则不可以。PDF( probability density function)概率密度函数。CDF( cumulative distribution function)累积分布函数是概率密度函数的积分。在Python中有现成的包可以直接用于KS检验from scipy.stats import kstest kstest(x,cdf norm) x表示待检验的样本集cdf用来指明要判断的已知分布类型有‘norm’,’expon’,’logistic’,’gumbel’,’gumbel_l’, gumbel_r’,‘extreme1’值可以选其中norm表示正态分布检验。kstest会返回两个值D和对应的p_value值。2.2 AD检验AD检验是在KS基础上进行改造的KS检验只考虑了两个分布之间差值最大的那个点但是这容易受异常值的影响。AD检验考虑了分布上每个点处的差值。在Python中可以用如下代码from scipy.stats import anderson anderson(x, distnorm) x为待检验的样本集dist用来指明已知分布的类型。可选值与ks检验中可选值一致。上面代码会返回三个结果 第一个为统计值第二个为评判值第三个为每个评判值对应的显著性水平AD检验和anderson有啥关系呢anderson发明了AD检验。2.3 W检验W检验(Shapiro-Wilk的简称)是基于两个分布的相关性来进行判断会得出一个类似于皮尔逊相关系数的值。值越大说明两个分布越相关越符合某个分布。在Python中的实现代码如下from scipy.stats import shapiro shapiro(x) 上面的代码会返回两个结果W值和其对应的p_value。shapiro是专门用于正态性检验的所以不需要指明分布类型。且 shapiro 不适合做样本数5000的正态性检验。03.非正态数据的处理办法一般数据不是正态就是偏态如果偏态不严重可以对数据取平方根来进行转换。如果偏态很严重则可以对数据进行对数转换。转换方法在偏态文章中也有讲过。
http://www.zqtcl.cn/news/365341/

相关文章:

  • 酒店 深圳 网站建设新项目首码对接平台
  • 岳阳市住房和城乡建设局网站上海专业网站建设网
  • 营销型网站建设设定包括哪些方面网站建设后的心得
  • 建立网站来网上销售的英文潢川城乡建设局网站
  • 仿站建站教程网站怎么接广告
  • 免费下载代码项目的网站长春网站建设找新生科技
  • 博兴县建设局网站做网站要用什么服务器吗
  • 成都中小企业网站建设公司怎么挑选网站建设公司
  • 万源网站建设在ppt里面做网站链接
  • 做网站时怎么添加动态信息中铁航空港建设集团网站
  • 文化礼堂建设情况网站网站建设运行
  • 自己做网站很难asp网站开发四酷全书:新闻_论坛_电子商城_博客
  • 网站建设入什么会计科目从网络安全角度考量请写出建设一个大型电影网站规划方案
  • 品牌建设+网站网站建设 淘宝客末班
  • 建设商业网站学校建设门户网站的好处
  • 男女朋友在一起做那个的网站公司建设网站
  • 营销型网站的类型有哪些相册网站怎么做
  • 河南建设监理协会网站电话erp管理系统官网
  • 视频网站seo实战做企业网站一般用什么服务器
  • icp备案 网站负责人免费直播sdk
  • 网站制作和如何推广动画专业学什么
  • 北京一家专门做会所的网站基于ssh框架的网站开发流程
  • 可以在自己的电脑上做网站吗陕西商城网站建设
  • 深圳网站建设工作室郴州有什么好玩的地方
  • 用dw做的网站怎么发到网上竹妃怎么在公众号里做网站
  • 杭州网站优化搜索黑龙江公共资源交易网官网
  • 动易网站 首页模板修改平台网站是什么
  • 营销网站更受用户欢迎的原因是英文网站的建设意义
  • 学网站建设基础河北省建设网站的网站首页
  • 铜仁市住房和城乡建设部网站延边有没有做网站的