h5模板网站免费,网站定做,泊头做网站的公司,wordpress 文章底部作者主要是为了计算机能够准确的理解数据
以下是需要处理的数据#xff1a;
1、缺失值
仅一部分实例有值的特性#xff0c;以及没有任何特征值的实例都被视为缺失数据
一个特征丢失了超过5%~10%的值#xff0c;被认为是缺失数据
缺失值实例应该被删除#xff0c;避免引入偏…主要是为了计算机能够准确的理解数据
以下是需要处理的数据
1、缺失值
仅一部分实例有值的特性以及没有任何特征值的实例都被视为缺失数据
一个特征丢失了超过5%~10%的值被认为是缺失数据
缺失值实例应该被删除避免引入偏差
替换缺失值的方法有 均值带入用可用数值的均值或中值替换缺失值缺点是会引入偏差 回归带入用回归函数得到预测值替换缺失值缺点会过度拟合模型
总结缺失值最好是直接删除或标记为未分类
2、异常值
远离平均值的值异常值可以是全局异常值或局部异常值
全局异常值远离整组特征的值
局部异常值远离该特征的子组的值
异常值处理方法
删除异常值
定义阈值
分配新值均值带入、回归带入