当前位置: 首页 > news >正文

手机投资理财网站建设电影网站免费建设

手机投资理财网站建设,电影网站免费建设,跨境电商都有哪些平台,如何做网站编辑文章目录 前言描述水平的统计量平均数分位数中位数四分位数 众数描述差异的统计量#xff08;数据离散程度#xff09;极差四分位差方差和标准差变异系数标准分数 描述分布形状的统计量偏度与偏度系数峰度与峰度系数 数据的综合描述综合描述的R函数综合描述的实例 总结 前言 … 文章目录 前言描述水平的统计量平均数分位数中位数四分位数 众数描述差异的统计量数据离散程度极差四分位差方差和标准差变异系数标准分数 描述分布形状的统计量偏度与偏度系数峰度与峰度系数 数据的综合描述综合描述的R函数综合描述的实例 总结 前言 本篇文章将介绍数据的描述统计量。 描述水平的统计量 平均数 平均数也称为均值常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的称为总体平均数记为根据样本数据计算的称为样本平均数记为。 设一组数据为x1 x2 … xn (总体数据xN) 。 计算30名学生考试分数的加权平均数 load(C:/example/ch3/example3_2.RData)weighted.mean (example3_2$组中值,example3_2$人数)#example3_2$人数权数向量分位数 中位数 排序后处于中间位置上的值。不受极端值影响。 四分位数 用3个点等分数据。排序后处于25%和75%位置上的值。 30名学生的考试分数的中位数。(example3_1) load(C:/example/ch3/example3_1.RData) median(example3_1$分数)计算30名学生考试分数的四分位数。(example3_1) load(C:/example/ch3/example3_1.RData) quantile(example3_1$分数,probsc(0.25,0.75),type6)用R计算汇总输出基本的描述统计量。(example3_1) load(C:/example/ch3/example3_1.RData) summary(example3_1$分数) # 默认使用type7众数 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数。 编写函数计算众数(example3_1) load(C:/example/ch3/example3_1.RData) mode-function(x){ ux-sort(unique(x)) # 列出每一个的数值并排序unique主要是返回一个把重复元素或行给删除的向量、数据框或数组 tab-tabulate(match(x,ux)) # 比较x与ux中相同的数值列出它们在ux中位置再计算每个位置的频数ux[tabmax(tab)] # 找出ux对象中频数最多的元素} mode(example3_1$分数) # 使用mode函数计算对象的众数which.max函数 —无众数返回1双众数只返回第一个。 load(C:/example/ch3/example3_1.RData) which.max(table(example3_1$分数)) 14 #众数在频数分布表的第14位描述差异的统计量数据离散程度 极差 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为 load(C:/example/ch3/example3_1.RData) R-max(example3_1$分数)-min(example3_1$分数) R # 或写为 R-diff(range(example3_1$分数)) R四分位差 也称四分位距。上四分位数与下四分位数之差 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性 R函数 IQR(example3_1$分数,type6)计算30名学生考试分数极差和四分位差 计算极差 load(C:/example/ch3/example3_1.RData) range-max(example3_1$分数)-min(example3_1$分数) range计算四分位差 IQR(example3_1$分数,type6)方差和标准差 数据离散程度的最常用测度值 反映各变量值与均值的平均差异 根据总体数据计算的称为总体方差(标准差)记为 根据样本数据计算的称为样本方差(标准差)记为s2(s)。 计算30名学生考试分数的方差和标准差。 方差 load(C:/example/ch3/example3_1.RData) var(example3_1$分数)标准差 sd(example3_1$分数)变异系数 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响其数值越大说明数据的相对离散程度也就越大。 用于对不同组别数据离散程度的比较计算公式为 (数据: example3_9. RData)在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次。在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员最后10枪的决赛成绩如下表所示。计算平均数、标准差和变异系数,评价运动员的射击水平及发挥的稳定性,并结合箱线图进行分析。 如果各运动员决赛的平均成绩差异不大可以直接比较标准差的大小否则需要计算变异系数。R代码和结果如下所示 load(C:/example/ch3/example3_9.RData) mean-apply(example3_9,2,mean)#apply()函数把一个function作用到数据对象中的每一行或者每一列中简单的说apply函数经常用来计算矩阵中行或列的均值、标准差、方差的函数 sd-apply(example3_9,2,sd) cv-sd/mean x-data.frame(平均环数mean,标准差sd,变异系数cv) round(x,4)par(cex.6,maic(.7,.7,.1,.1)) boxplot(example3_9,notchTRUE,collightblue,ylab射击环数, xlab运动员)从变异系数可以看出在最后10枪的决赛中发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇变异系数为0.0369和中国的郭文珺变异系数为0.0427发挥不稳定的运动员是蒙古国的卓格巴德拉赫·蒙赫珠勒变异系数为0.0764和波兰的莱万多夫斯卡·萨贡变异系数为0.0754。由于郭文珺的平均环数远高于其他选手可以很好地佐证上述结论且发挥稳定最终获得了本届奥运会女子10米气手枪决赛的金牌。箱线图也可以很好地佐证上述结论。 标准分数 对某一个值在一组数据中相对位置的度量。也称标准化值 可用于判断一组数据是否有离群点(outlier) 比如全班的平均考试分数为80分标准差为10分如果一个学生的考试分数是90分表示距离平均分数有1个标准差的距离。这里的1就是这个学生考试成绩的标准分数。标准分数描述的是某个数据与平均数相比相差多少个标准差它是某个数据与其平均数的差除以标准差后的数值。设标准分数为z 计算公式为 数据example3_1.RData沿用例3—1。计算30名学生考试分数的标准分数 load(C:/example/ch3/example3_1.RData) as.vector(round(scale(example3_1$分数),4))注函数scalex用于计算标准分数x为向量或矩阵。as. vectorx函数将结果 以向量形式输出roundx函数将结果保留4位小数。 思考为什么标准分数能判断一组数据是否有离群点 第一个学生的标准分数为0.3784表示这个学生的考试分数与平均分数80分相比高出0.3784个标准差第二个学生的标准分数为-1.8919表示其考试分数与平均分数相比低1.8919个标准差。其余的含义类似。 根据标准分数可以判断一组数据中是否存在离群点。经验表明当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内。可以想象一组数据中低于或高于平均数3倍标准差之外的数值是很少的因此通常将3个标准差之外的数据确定为离群点。 经验法则表明当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内 描述分布形状的统计量 偏度与偏度系数 K.Pearson于1895年首次提出。指数据分布的不对称性 测度统计量是偏度系数(coefficient of skewness SK) 为对称分布为右偏分布为左偏分布 大于1或小于−1为高度偏度分布 在0.51或−1−0.5之间为是中等偏度分布 越接近0偏斜程度就越低。 计算公式 峰度与峰度系数 不同分布的偏度系数和峰度系数。 来自不同分布的模拟数据样本量5000 library(e1071) # 加载“skewness”和“kurtosis”函数包 par(mfrowc(1,3),maic(0.7,0.5,0.2,0.1)) mf-function(x){ hist(x,probabilityT,collightblue,xlabx,ylabDensity, subpaste(skewness,round(skewness(x),digits4)),#paste函数将他的参数转换为字符串并连接他们 mainpaste(kurtosis,round(kurtosis(x),digits4))) lines(density(x),colred,lwd2) } n-5000 mf(rchisq(n,10))#咖方分布 mf(rnorm(n)) mf(-rchisq(n,10)36) #注每次运行上述代码都会得到略有不同的分布形状和偏度系数及峰度系数可以反复进行模拟沿用例3-1。计算30名学生考试分数的偏度系数和峰度系数 计算偏度系数 library(agricolae) skewness(example3_1$分数)计算峰度系数 kurtosis(example3_1$分数)偏度系数和峰度系数有不同的计算方法R的e1071包中提供了各种方法的介绍type2与上述结果相同。 结果显示30名学生考试分数的偏度系数为-0.8313613表示考试分数的分布为左偏分布且偏斜程度较大。峰度系数为-0.3514637说明考试分数分布的峰值比标准正态分布的峰值要略低一些。 数据的综合描述 综合描述的R函数 绘制使用pastecs包中的stat.desc()函数计算描述统计量 load(C:/example/ch3/example3_9.RData) library(pastecs) round(stat.desc(example3_9),4)使用psych包中的describe()函数计算描述统计量 library(psych) describe(example3_9)综合描述的实例 在实际分析中通常要对数据从图表和统计量两个方面同时进行描述。通过如下实例来说明对数据进行综合描述的基本思路 60个大学生的调查数据(部分)example3_12 提示这里涉及两个类别变量和一个数值变量。对于性别和家庭所在地两个类别变量可以对其频数进行计数计算百分比并画出条形图和饼图等进行描述。对于月生活费支出变量可以绘制直方图、茎叶图、箱线图等来观察其分布特征并计算均值和标准差等统计量进行分析。 首先对性别和家庭所在地两个类别变量统计频数观察各自的分布状况。 使用summary函数对类别数据计数和对数值数据计算描述统计量(example3_12) summary(example3_12) 其次对月生活费支出做整体描述。画出60个学生月生活费支出的直方图、茎叶图和箱线图观察月生活费支出的分布状况。 绘制带有箱线图、轴须线和密度估计的直方图 load(C:/example/ch3/example3_12.RData) attach(example3_12) par(figc(0,0.8,0,0.8),cex0.8) hist(月生活费支出,xlab月生活费支出,ylab密度,freq FALSE,collightblue,main) rug(jitter(月生活费支出)) lines(density(月生活费支出),colred) par(figc(0,0.8,0.35,1),newTRUE) boxplot(月生活费支出,horizontalTRUE,axesFALSE) par(figc(0,0.8,0.5,1),newTRUE) boxplot(月生活费支出,horizontalTRUE,axesFALSE)绘制茎叶图 library(aplpack) library(aplpack) stem.leaf(example3_12$月生活费支出)从图中可以看出大学生月生活费支出的分布基本上是对称的也就是以均值为中心两侧依次减少这基本上符合大学生生活费支出的特点。 再次分别按性别和家庭所在地进行分类描述。分析不同性别和不同家庭所在地的学生月生活费支出的特征看看性别和家庭所在地对生活费支出是否有影响.分别按性别和家庭所在地分类计算描述统计量的R代码和结果如下所示 my_summary-function(x){library(agricolae) with(x,data.frame(Nlength(月生活费支出),平均数mean(月生活费支出),中位数median(月生活费支出),标准差sd(月生活费支出), 全距max(月生活费支出)-min(月生活费支出), 变异系数sd(月生活费支出)/mean(月生活费支出),偏度系数skewness(月生活费支出))) }library(plyr)ddply(example3_12,.(性别),my_summary)ddply(example3_12,.(家庭所在地),my_summary)注首先编写了包含关心的统计量的汇总函数。plyr包中的ddply函数可以对数据分组应用统计函数函数 ddplydata .variablesfun中的data为数据集 .variables指对哪个变量分组fun为应用的统计函数。结果显示女生月生活费支出的平均数和中位数均高于男生同时女生生活费支出的标准差和全距也都大于男生相应的变异系数CV女0.1750539CV男0.1619382说明女生生活费支出的离散程度大于男生。从分布形态看女生生活费支出的偏度系数是0.5028245为右偏分布而男生生活费支出的偏度系数是-0.5485891为左偏分布。 此外还可以同时按性别和家庭所在地分类描述其月生活费支出也就是按性别分类的同时再按家庭所在地分类然后计算各自的描述统计量如均值、中位数、标准差、变异系数、极差、偏度系数等。 同时按性别和家庭所在地分类描述 library(reshape) library(agricolae) mystats-function(x) {c(nlength(x),meanmean(x),medianmedian(x),sdsd(x),CVsd(x)/mean(x),R(max(x)-min(x)),SKskewness(x))}dfm- melt(example3_12,measure.vars月生活费支出,id.varsc(性别,家庭所在地)) cast(dfm,性别家庭所在地variable~., mystats)1.mystats为自编函数计算所需的统计量melt为融合数据指明要描述的数值变量和类别变量cast重新构建输出结果的数据框。 2.安装doBy包使用 summaryBy月生活费支出~性别家庭所在地dataexample3_12FUN mystats可以得到类似的结果。 为比较不同性别和不同家庭所在地的学生月生活费支出的分布状况还可以按类别分别绘制点图和箱线图也可以绘制直方图。 按性别和家庭所在地分类绘制点图 library(lattice) stripplot(月生活费支出~家庭所在地性别,colc(red,blue),pchc(19,8),cex0.7)图显示女生支出的平均水平明显高于男生大城市和中小城市的平均支出水平差异不大乡镇地区的平均支出水平偏低。 按性别和家庭所在地分类绘制箱线图 boxplot(月生活费支出~家庭所在地*性别,colc(2:4),ylab月生活费支出)图显示大城市女生支出的平均水平明显高于中小城市和乡镇地区该图还可以用于比较按性别和按家庭所在地分类的学生月生活费支出分布的特点。 总结 本篇是对数据描述的统计量进行的最后一个篇章的介绍有部分的例题作为介绍希望对大家的学习有所帮助。
http://www.zqtcl.cn/news/330381/

相关文章:

  • 做原创的网站做游戏平面设计好的素材网站有哪些
  • 校园网站wordpress 防攻击插件
  • wordpress 更好的主题丁的老头seo博客
  • 上海市工程信息网站北京专业网站翻译影音字幕翻译速记速记速记速而高效
  • 网站建设心得体会500字网页制作三剑客是指什么
  • 大连做网站优化一级a做爰片 网站就能看
  • 网站优化页面中山seo网络推广
  • 建设网站一定要数据库吗湖北百度seo
  • 下载了wordpress然后怎么用怎样健建设一个有利于优化的网站
  • 网站开发心得500字做代售机票网站程序
  • php电影网站开发凡诺网站建设
  • 兰州道路建设情况网站南宁网站开发
  • 网站开发服务费投资者网站建设
  • 网站开发 如何备案新站点seo联系方式
  • 自动全屏网站模板贵州网站制作公司电话
  • 南昌购物网站制作国外免费网站空间
  • 网站地图模版企业做网站etp和源程序
  • 电子商务企业网站的推广方式外贸长尾关键词挖掘网站
  • 靓号网建站网站商城html模板
  • 广东顺德网站建设wordpress 我爱搜罗网
  • 基金网站建设需求书昆明网站制作工具
  • 京东网上购物商城官方网站国外网站页头设计图片
  • 芯片设计公司排名安卓优化大师app
  • 如何进行网站域名解析网站开发的工作方法
  • 专门做衣服的网站有哪些南宁企业官网seo
  • 网站 建设 内容中铁建设集团有限公司招聘官网
  • 个人电脑做服务器网站cn域名注册流程
  • 网站开发的思维导图哪些网站是react做的
  • 住房和城乡建设部网站注册进度常德建设局网站
  • 网站导购话术怎么做免费的产品图片网站