网站优化首页付款,上海网站建设公司服务有哪些,怎么做装修网站平台,seo入门教程seo入门文章目录数据分析方法分类1、单纯的数据加工方法2、基于数理统计的数据分析方法3、基于数据挖掘的数据分析方法4、基于大数据的数据分析方法描述性统计分析1、数据的计量尺度2、数据的集中趋势3、数据的离中趋势4、数据分布的测定正态分布a. 偏态系数b. 数据峰度c. 偏度与峰度的…
文章目录数据分析方法分类1、单纯的数据加工方法2、基于数理统计的数据分析方法3、基于数据挖掘的数据分析方法4、基于大数据的数据分析方法描述性统计分析1、数据的计量尺度2、数据的集中趋势3、数据的离中趋势4、数据分布的测定正态分布a. 偏态系数b. 数据峰度c. 偏度与峰度的作用d.非正态分布5、数据的展示-统计图a. 定性数据b. 定量数据数理统计基础1、抽样估计基础a. 随机事件b.随机事件概率条件概率c. 随机变量及其概率分布d. 随机变量的数学特征2、正态分布及三大分布a. 正态分布的概率密度函数b. 正态分布的特征c. 标准正态分布d. 基于正态分布的三大分布3、中心极限定理抽样估计1、抽样估计的基本概念b. 样本及样本指标c. 抽样估计的思想2、抽样估计的方法--点估计a. 点估计b. 点估计精度和样本容量的关系c. 点估计的优缺点3、抽样估计的误差a. 抽样估计的实际误差b. 抽样估计的平均误差c. 抽样估计的极限误差4、抽样估计的方法--区间估计a. 抽样估计的精度及置信度b. 区间估计的方法c. 区间估计的步骤共同步骤5、抽样的组织形式和抽样数目的确定a. 抽样的组织形式简单随机抽样假设检验1、基本原理2、分析方法3、P值检验方差分析1、单因素方差分析时间序列数据分析方法分类
1、单纯的数据加工方法 a.描述性统计分析集中、离中趋势分析和数据分布b.相关性分析
2、基于数理统计的数据分析方法 方差分析、回归分析特指一元线性回归、因子分析
3、基于数据挖掘的数据分析方法 a.聚类分析 b.分类分析决策树、人工神经网络、贝叶斯分类法、支持向量机随机森林、关联规则、回归分析
4、基于大数据的数据分析方法
与数据挖掘使用的工具不同使用Hadoop、Mathout、Spark、Storm
数理统计与数据挖掘的联系 都来源于统计基础理论例如概率论和随机事件。数理统计与数据挖掘的区别 a.数理统计需要对分布和变量间的关系作假设数据挖掘不对分布作任何假设 b.数理统计在预测中常表现为一组函数关系式数据挖掘则重点在于结果往往没有得出明确的函数关系式。数据分析的目的 为业务发展答疑解惑及分析层次涉及公司运营的方方面面特别是客户与市场的数据分析。 *分析的层级 常规报表、即席查询、多维分析钻取or OLAP、警报、统计分析、预报、预测型建模、优化数据挖掘是一种发现知识的手段通过合理的方法从数据中获取与数据挖掘项目相关的知识。 大数据数据挖掘是对传统小数据分析的扩展数据量海量、数据精度下降、算法特殊、关注点关注时间、效率和知识发现关注相关分析而非因果分析 CRISP-DM方法论将项目生命周期分为业务理解、数据理解、数据准备、建模、模型评估、模型发布。 SEMMA方法论定义业务问题、环境评估、数据准备、循环挖掘、上线发布、检视其中的循环挖掘包括数据整理、样本探索、变量修改、建模、模型检验。
描述性统计分析
1、数据的计量尺度 定类尺度性别/民族、定序尺度职称/质量等级、定距尺度摄氏度/纬度、定比尺度质量/长度。定距与定比的区别定比的“0“表示”没有“。
2、数据的集中趋势
a. 平均值受极端值的影响b. 分位数要先把数据按顺序排列常见的有百分位数Xp%、四分位数、中位数。c. 众数一组数据中出现次数最多的值有三种情况无众数有一个众数有多个众数。
3、数据的离中趋势
a. 极差全距 b. 分位距四分位距第三个四分位数-第一个四分位数排除了数列中两端各25%的数值的影响。 c. 平均差各数值与算术平均年数的离差对的绝对值的算术平均数。 d. 方差和标准差 方差的平方根就是标准差s。标准差体现了平均数的代表性指出了数值离平均数有多远。 e. 离散系数 标准差之类的数据类型有缺点受计量单位的影响受变量平均水平高低的影响例如数值的整体绝对值越高得出的标准差也越大。要比较平均水平不同的两组数就需要用离散系数。常见的离散系数标准差系数Vs标准差与算术平均数的百分比数值越小波动越小
4、数据分布的测定正态分布
a. 偏态系数 SK0 分布对称 SK0 负偏态向左偏 SK0 正偏态向右偏
b. 数据峰度 K0 尖顶峰度 K0 平顶峰度
c. 偏度与峰度的作用
SK≈0、K≈3 可以认为是正态分布。
d.非正态分布 右偏趋势-- 平均数众数中位数 左偏趋势-- 平均数众数中位数
5、数据的展示-统计图
a. 定性数据 条形图两组数据的比较 饼图成分数据的分析
b. 定量数据 折线图时间数列数据货数据的趋势分析 箱线图极端数据的分析及数据分布形态 直方图数据分布形态。易混淆点常见的是频数分布直方图长方形的高代表频数统计意义上的是频率分布直方图长方形面积频数/组距无纵向刻度。注意点有的区间分布本身就不均匀在水平轴上要按照实际比例划分区间。 茎叶图茎数值的高位叶数值的低位整数时可以把个位作为“叶”小数时可以把小数部分作为“叶”。直观反映数据的集中趋势数据的集中趋势分析。
数理统计基础
1、抽样估计基础
a. 随机事件
随机现象重复性、明确性、随机性需要大量的重复的随机实验。 样本空间Ω随机现象的一切可能的组合的集合。 随机事件样本空间的一个子集也就是在样本空间里满足一些前提的某些结果的集合。
b.随机事件概率
随机事件的概率是随机事件出现的可能性的度量。 事件A的概率是PA事件A与B同时发生的概率是PAB。
条件概率
在事件B已发生的条件下事件A发生的概率PA│BPAB/PB。在条件概率中随着条件的增加事件A的条件概率也在增加。 相互独立事件PAPA│B即说明A关于B是独立的。概念延伸有回放抽样独立无回放抽样非独立。
c. 随机变量及其概率分布
随机变量大写字母表示随机现象结果的变量。 随机变量的概率分布知道了随机变量所有值的可能性分布就找到了随机试验的规律性。 离散随机变量的分布每一个取值的概率在0与1之间所有取值的概率之和是1。 连续随机变量的分布用概率密度函数来表示可以从直方图做出概率密度曲线纵轴会由频率变成概率。概率密度曲线与x轴所夹面积为1求随机事件的概率变成求某个区间关于概率密度曲线的积分。
d. 随机变量的数学特征
随机变量的数学期望变量值按概率的加权平均也就是所有变量值乘以对应的概率再全部相加。表示为EX随机变量的数学期望表征的是概率分布的中心位置。方差VarX大随机变量的取值分布宽方差小取值分布窄。方差的平方根是标准差STD。对于相互独立的随机变量方差可相加标准差不能相加。
2、正态分布及三大分布
a. 正态分布的概率密度函数
XNμσ2μ平均值σ标准差
b. 正态分布的特征
对称性、非负性、由μ和σ完全控制μ控制位置σ控制离散程度。
c. 标准正态分布
μ0且σ1所有的正态分布都可以通过平移和伸缩变换成标准正态分布。查标准正态分布表的方法在表中查Φx先在左边找到小数点第二位之前的数值再从顶部找到小数点第二位两者相交的数值即是。 Φx表示总体中小于x的概率 即 PXx当X≥0时直接查Φx即可得到PX≤x 当X0时由Φx1-Φ-x可知P│X│≤x2Φx-1 区间x1x2的概率是Φx2-Φx1 如果X不是标准正态分布需要先转化成标准正态分布后才能查表 XNμσ2 → X-μ/σN01 标准正态分布的“3σ原则”68.3%95.4%99.7%
d. 基于正态分布的三大分布
χ2分布卡方分布用于分类变量的卡方检验t分布在信息不足的情况下一般使用t分布F分布用于方差比例检验、方差分析、回归分析和方差齐性检验
3、中心极限定理
在自然界与生产中一些现象受到许多相互独立的随机因素的影响如果每个因素所产生的影响都很微小时总的影响可以看作是服从正态分布的。 a. 中心极限定理的提法随机变量之和当n充分大时独立随机变量ξ之和近似服从正态分布N数学期望之和方差之和从均值为μ、方差为σ^2; 有限的任意一个总体中抽取样本量为n的样本当n充分大时样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。 独立随机变量的规范和如果ξ都有有穷数学期望和方差就可以把ξ之和的分布转化为标准正态分布 b. 中心极限定理的内容 隶美弗-拉普拉斯积分定理 林德伯格定理 李亚普诺夫定理 c. 中心极限定理的意义应用 当随机因素对总的影响均匀地小同时又是独立的并且总数在15个以上可以认为其和的分布是正态的。
抽样估计
1、抽样估计的基本概念
a. 总体及总体指标 总体研究对象的全体。 个体组成总体的每一个元素被称为个体它是被分析和测量的对象特性包括同质性有相同的观测变量、大量性、差异性值不同。 总体指标可以对应到数理统计里的平均数、方差、标准差等。 总体与随机变量总体是一组个体观测数据的集合即样本空间测量就等于随机试验总体的分布也就等同于随机变量的分布。
b. 样本及样本指标 样本因为无法测量所有个体所以进行抽样样本就是用来代表总体的子集样本容量就是样本中的个体数目。 样本个数就是总体中可以抽样的全部次数 总体容量M样本容量n样本个数就是M的n次方。 样本指标就是针对样本内部的值做统计方差、平均值之类可以用来推断总体指标。 总体指标与样本指标的区别与联系
样本指标是一个随机变量但通过抽样计算可知总体指标是一个确定的值但是未知的。必须通过样本指标来推断总体指标所有可能样本指标的平均数等于总体相应指标如果样本单位数增大样本指标就会接近总体指标。
c. 抽样估计的思想
抽样估计又叫抽样推断也叫参数估计包括了调查和估计。先按随机原则抽样调查再用数理统计进行研究。若X1X2…Xn是从总体X中获得的样本那么X1X2…Xn就是独立同分布的随机变量样本的观测值x1x2…xn就是数据。 抽样方法 重复抽样不重复抽样 d. 抽样轨迹的理论基础 大数定律 如果随机变量总体存在有限的平均数和方差则对于充分大的抽样单位数n可以易趋近与1的概率来期望抽样平均数与总体平均数的绝对差为任意小。也就是抽样数越多抽样平均数就越接近总体平均数。 中心极限定理 只要总体变量存在有限的平均数和方差那么不管总体变量的分布如何随着抽样单位数的增加抽样平均数就趋近与正态分布。 大数定律论证了抽样平均数趋近于总体平均数的趋势中心极限定理说明了抽样平均数与总体平均数对的离差不超过一定范围的概率。 e. 样本统计量及分布不含未知参数的样本函数称为统计量统计量的分布称为抽样分布。从某种意义上讲样本统计量就是样本指标。样本均值统计量它的分布服从正态分布总体的均值和方差。
2、抽样估计的方法–点估计
a. 点估计
抽样一次以此样本统计量的值作为总体指标。用样本平均数来估计全体的平均数μ就是点估计。优良点估计要做到无偏性、有效性抽样分布的方差要小、一致性。
b. 点估计精度和样本容量的关系
样本容量越大精度越高。
c. 点估计的优缺点
点估计以误差存在为前提且误差大小及可靠度不可知。
3、抽样估计的误差
a. 抽样估计的实际误差
凡进行抽样就要一定会产生误差。实际误差就是样本统计量和总体指标之间的差距。
b. 抽样估计的平均误差
因为一次抽样的实际误差无法计算所以抽样误差的大小通过抽样平均误差来反映。抽样平均误差是抽样平均数的标准差即先计算出各个样本的平均数再计算所有平均数的标准差。
c. 抽样估计的极限误差
分析人员可以要求有一个允许误差范围Δ。抽样平均数以总体平均数为中心在±Δ之间波动。
4、抽样估计的方法–区间估计
a. 抽样估计的精度及置信度
抽样估计精度是抽样估计的准确程度这与抽样误差相对估计精度1-误差率误差率等于误差范围除以样本平均数。因为抽样误差是一个随机变量所以抽样平均数落在一个区间是有概率的。抽样误差范围与估计置信度呈反比。
b. 区间估计的方法
区间估计是根据样本指标的分布率按照一定要求先确定出θ1与θ2使总体指标θ的概率P(θ1≤θ≤θ2)1-α α被称为显著性水平1-α称为置信系数置信概率置信区间表达了区间估计的准确性置信系数表达了可靠性。准确性与可靠性不能兼得只能提出其中一个条件然后推导出另一个条件的变动情况。以95%的置信系数为例如果做一百次独立的抽样统计会有一百个样本平均数也会有一百个区间估计而这一百个区间估计里有95个正确地包含全体平均数μ。我们只做一次抽样的话得到的这一个区间估计会包含着μ的机会是95%.
c. 区间估计的步骤共同步骤
计算样本指标来作为总体的估计值再计算样本标准差来推算抽样平均误差给定误差范围求概率保证程度抽样误差除以抽样平均误差得出t再查《正态分布概率表》得出置信度给定置信度求极限误差的可能范围根据置信度查出t再根据t求出误差即极限误差
5、抽样的组织形式和抽样数目的确定
a. 抽样的组织形式简单随机抽样
分层抽样先分组再按各组频数占总体频数的比重分配抽样数目 等距抽样先排列数据再等距抽样整群抽样例如按整箱、整村进行抽样多阶段抽样 b. 必要抽样数目的确定
假设检验
1、基本原理
假设检验遵循的推断依据是小概率原理这个小概率就是假设检验的显著性水平αα越小所做出的拒绝原假设的判断力越强但这与“反证法”不同。
2、分析方法
设立原假设虚无假设H0和备择假设H1 。H0总包含等号H0与H1对立。依据涉及的总体分布构造一个适用于检验H0的统计量例如使统计量服从标准正态分布。确定小概率事件的临界值α也就是统计量的分布中面积概率为α的区间一般取α0.05或α0.01 。用α推算出统计量的拒绝域。用随机抽样得到的值来计算出统计量的抽样值看是否在拒绝域内。
3、P值检验
在分析软件中已经取代临界值检验P值就是出现统计量观测值以及更极端值的概率。 αP则拒绝原假设 αP则接受原假设 αP可增加样本容量
方差分析
1、单因素方差分析
单因素方差分析是指将所获得的数据按某些项目因子分类后,再分析各组两个组以上数据之间有无差异的方法。即变异分解过程。 适用条件:因素水平间的因变量要服从正态分布、适用于分类水平为两个以上的分类变量、总体方差相等。 假设H0μ1μ2…μr H1μ1μ2…μr不全相等 SST总离差平方和反映了全部试验数据之间的差异 SSM组间离差平方和反映了每组数据均值和总平均值的误差 SSE组内离差平方和反映了组内数据和组内平均的随机误差 SSTSSESSM
时间序列 Tt是长期趋势项St是季节变动Ct是循环变动Rt是随机干扰 自回归模型ARn 移动平均模型MAm 自回归移动平均模型 平稳时间序列模型识别准则 差分运算把非平稳