陕西专业做网站,做网站的公司主营成本应该写啥,今晚24时油价调整最新消息,在线制作印章图片常用的数据处理方法
本文参考 B站西电数模协会的讲解视频 #xff0c;只作笔记提纲#xff0c;想要详细学习具体内容请观看 up 的学习视频。一般来说国赛的 C 题一般数据量比较大。
这里介绍以下两种方法#xff1a; 数据预处理方法 数据分析方法
数据预处理方法
1. 数据…常用的数据处理方法
本文参考 B站西电数模协会的讲解视频 只作笔记提纲想要详细学习具体内容请观看 up 的学习视频。一般来说国赛的 C 题一般数据量比较大。
这里介绍以下两种方法 数据预处理方法 数据分析方法
数据预处理方法
1. 数据清洗
为了提高数据质量和适用所做数据分析的软件 (1) 缺失值
删除法例如调查人口信息发现“身高”这一项缺失 40%直接删除该项指标替换法适用于数据基数较大对个体精度要求不高例如人口的数量、年龄、经济产业情况等统计数据 人口的身高、年龄等数据可以用均值补缺人口的性别、文化程度、事件调查的满意度可以用出现次数最多的值(众数)补缺 插值法适用于对个体精度有要求 常用插值法分段线性插值、牛顿插值、拉格朗日多项式插值、Hermite插值、三次样条插值和克里金插值牛顿插值 根据固定公式构造近似函数补上缺失值适用性强会出现龙格现象即区间边缘处有不稳定振荡不适合对导数有要求的题目适用赛题只追求函数值精确而不关心变化的数据。例如:热力学温度、地形测量、定位等 三次样条插值 用分段光滑的曲线去插值函数曲线连续可导适用赛题函数值精确度要求高有突变的数据。例如:零件加工水库水流量机器人轨迹等 (2) 异常值
查找异常数据 正态分布 3 σ 3\sigma 3σ 原则 适用题目:总体符合正态分布例如人口身高、测量误差、生产加工质量、考试成绩等不适用题目:总体符合其他分布例如固定时间内到公交站、地铁站人数符合泊松分布等 箱型图法 流程普遍适用 删去异常值当作缺失值处理
2. 数据变换
数据变换就是转化成适当的形式以满足软件或分析理论的需要
(1) 简单函数变换
将不具有正态分布的数据变成有正态分布的数据常用的方法有开方、取对数、Box-Cox变换等利用对数或差分运算将非平稳序列转化成平稳序列
(2) 数据的规范化 规范化就是剔除掉变量量纲上的影响比如直接比较身高和体重的差异单位的不同和取值范围的不同让这件事不能直接比较
最小 – 最大规范化 对数据进行线性变换将其范围变成 [0,1]规范公式(原始值-最小值)/(最大值-最小值)不适用情形原始数据存在小部分很大或很小的数据时会造成大部分数据规范化后接近于 0/1区分度不大 零 – 均值规范化 处理后的数据均值等于 0标准差为 1规范公式(原始值-平均值)/标准差注意得到的是给定数据距离其均值多少个标准差结果 没有实际意义仅用于比较 小数定标规范化 移动属性值的小数位数将属性值映射到 [-1,1]规范公式原始值/10^k注意 k k k 取决于数据属性中数值的最大绝对值
数据分析方法 通过采用合理的数据处理方法将实际问题化繁为简将定性分析变为定量分析获得科学可靠的结论
1. 回归分析 在统计学中回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
根据自变量个数有一元回归和多元回归根据因变量与自变量的关系有线性回归和非线性回归
2. 插值与拟合
3. 数据降维
(1) 主成分分析
将多个有一定相关性的指标进行线性组合以最少的维度解释原数据中尽可能多的信息为目标进行以降维
(2) 因子分析
将原始变量分解为两部分一部分是公共因子的线性组合浓缩了原始变量中的绝大部分信息。另一部分是与公共因子无关的特殊因予反映了公共因子线性组合与原始变量间的差距。
(3) 二者区别
示例现有 10 位同学的语文、数学、英语、物理、化学、政治、历史、地理、生物的成绩数据。 主成分分析文科和理科 因子分析计算能力、阅读能力、逻辑能力、记忆能力