学校网站建设合同,义乌小商品市场进货渠道,做网站wordpress,网站建设课程设计摘要文章目录 一、箱形图的介绍二、六大因数三、Box plot的应用四、箱形图的优劣势五、图形拓展 一、箱形图的介绍
箱形图又称为盒须图、盒式图、盒状图或箱线图#xff0c;是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
在各种领域也经常被使用#xff0… 文章目录 一、箱形图的介绍二、六大因数三、Box plot的应用四、箱形图的优劣势五、图形拓展 一、箱形图的介绍
箱形图又称为盒须图、盒式图、盒状图或箱线图是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
在各种领域也经常被使用常见于品质管理快速识别异常值。箱形图最大的优点就是不受异常值的影响能够准确稳定地描绘出数据的离散分布情况同时也利于数据的清洗。
箱型图于1977年由美国著名统计学家约翰·图基John Tukey发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
John Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位之后又在普林斯顿大学拿到了化学博士。有趣的是他并没有直接开始让他青史留名的统计学工作而是在二战期间进入了火控研究室在那里大量武器相关的研究最终都转而需要先解决统计学问题。从此Tukey改变了自己的人生方向一代统计学大师即将出现。
二、六大因数
我们以一组序列数为例1215171920232528303334353637 共14个讲解这六大因“数 1、下四分位数Q1 等于该样本中所有数值由小到大排列后第25%的数字。 确定四分位数的位置。Qi所在位置in1/4其中i123。n表示序列中包含的项数。 根据位置计算相应的四分位数(以数组为例)。 Q1所在的位置141/43.75 Q10.25×第三项0.75×第四项0.25×170.75×1918.5 2、中位数第二个四分位数Q2 中位数等于该样本中所有数值由小到大排列后第50%的数字。 Q2所在的位置2141/47.5 Q20.5×第七项0.5×第八项0.5×250.5×2826.5 3、上四分位数Q3 等于该样本中所有数值由小到大排列后第75%的数字 计算方法同下分位数。 Q3所在的位置3141/411.25 Q30.75×第十一项0.25×第十二项0.75×340.25×3534.25 4、上限 上限是非异常范围内的最大值。 首先要知道什么是四分位距如何计算的 四分位距interquartile range, IQR又称四分差。 四分位距IQRQ3-Q1那么上限Q31.5IQR 5、下限 下限是非异常范围内的最小值。 下限Q1-1.5IQR 6、异常值 在内限与外限之间的异常值为温和的异常值mild outliers 在外限以外的为极端的异常值extreme outliers 三、Box plot的应用
下图是不同地区某工程师的薪酬统计情况 图中的红线显然是各个城市中游水平的工程师能够获得的薪资标准上边的蓝线区间为中上游下边的蓝线区间为中下游以此类推。简而言之样本人群被四等分了。
上海、北京、深圳的工程师薪资范围接近但是中上游水平的人北京地区能获得更高的薪资因为中位数Q2的位置更高。西安、长沙、天津则不利于工程师的发展。杭州的水平接近北上深但是薪资上限受到一定限制
四、箱形图的优劣势
1.直观明了地识别数据批中的异常值
上文讲了很久的识别异常值其实箱线图判断异常值的标准以四分位数和四分位距为基础四分位数具有一定的耐抗性多达25%的数据可以变得任意远而不会很大地扰动四分位数所以异常值不会影响箱形图的数据形状箱线图识别异常值的结果比较客观。由此可见箱线图在识别异常值方面有一定的优越性。
2.利用箱线图判断数据批的偏态和尾重
对于标准正态分布的样本只有极少值为异常值。异常值越多说明尾部越重自由度越小即自由变动的量的个数
而偏态表示偏离程度异常值集中在较小值一侧则分布呈左偏态异常值集中在较大值一侧则分布呈右偏态。
3.利用箱线图比较几批数据的形状
同一数轴上几批数据的箱线图并行排列几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图可直观得看出第三季度各分公司的销售额大体都在下降。
但箱形图也有他的局限性比如不能精确地衡量数据分布的偏态和尾重程度对于批量比较大的数据反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。
五、图形拓展 一些柱状图中作者会添加误差线来给数值增加误差范围看起来和箱线图有点相似。箱子虽好别分不清误差线可以用标准差平均偏差或标准误差一般通用的是这两个 K 线图原名蜡烛图又称阴阳图、棒线、红黑线或蜡烛线常用于展示股票交易数据。虽然和箱形图长得有点像但二者几乎是完全不同的图表。