psd网站首页图片,中美军事最新消息,成都网站建设思图佳,wordpress转tytypecho文章目录 一、机器学习一般过程1.数据获取2.特征提取3.数据预处理①去除唯一属性②缺失值处理A. 均值插补法B. 同类均值插补法 ③重复值处理④异常值⑤数据定量化 4.数据标准化①min-max标准化#xff08;归一化#xff09;②z-score标准化#xff08;规范化#xff09; 5.… 文章目录 一、机器学习一般过程1.数据获取2.特征提取3.数据预处理①去除唯一属性②缺失值处理A. 均值插补法B. 同类均值插补法 ③重复值处理④异常值⑤数据定量化 4.数据标准化①min-max标准化归一化②z-score标准化规范化 5.数据降维①目的②权衡 6.训练模型①样本数据集的选取②机器学习算法 7.评估模型的有效性①过拟合与欠拟合②性能度量A. 回归任务B.分类任务C.聚类任务 8.使用模型 一、机器学习一般过程
机器学习的基本思想是通过从样本数据中提取所需特征构造一个有效的模型并使用所建模型来完成具体的任务。 首先要获取所研究问题的数据 其次是对获取到的数据进行适当处理然后选取合适的算法训练模型 最后对训练好的模型进行评估以判定其是否满足任务需求如满足即可使用模型。 1.数据获取
机器学习的第一步是收集与学习任务相关的数据这是最基础也是最重要的一步。
虽然现在是大数据时代但对于一个给定任务要得到与之相关的数据有时却很困难。业界广泛流传这样一句话*数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限的方法而已。*因此数据的获取尤为重要。
在训练最优的机器学习模型时一定要选择最有代表性的数据集。只有选择最合适的属性作为特征才能保证机器学习项目能应用于实际。
2.特征提取
特征提取是使用专业的背景知识和技巧最大限度地从原始数据中提取并处理数据使得特征在机器学习的模型上得到更好的发挥它直接影响机器学习的效果。 例如在机器自动分辨筷子和牙签两种物品的实验中 序 号长度/cm质量/g材 质类 别1258竹筷子2237竹筷子3204木筷子460.1竹牙签550.08竹牙签65.80.09竹牙签…………… 观察表数据集可发现根据长度和质量这两个特征即可分辨筷子和牙签材质这个特征对区分筷子和牙签的作用并不明显故可在特征属性中提取长度和质量这两个特征而将材质这个特征删除这个过程称为特征提取。 3.数据预处理
现实生活中收集到的数据往往会有数据量纲数据的度量单位或数据类型不一致等问题。因此在获取样本之后通常需要对数据进行预处理。
数据预处理没有标准流程通常包含去除唯一属性处理缺失值、重复值和异常值以及数据定量化等几个步骤。
序 号姓 名年龄/岁年收入/元性 别学 历年消费/元1张三3650 000男本科30 0002赵琦4245 000女本科40 0003李武2330 000男高中4王波6170 000男本科20 0005刘玉琦3820 000女大专10 0006赵琦4245 000女本科40 0007赵倩−530 000女本科90 000 该数据集是某平台上的“客户信息样本数据集”要求使用机器学习方法进行聚类将客户划分为几种类型以便为其推销相关的产品。在训练模型之前我们需要对数据集中的数据进行预处理才能得到理想的机器学习样本数据集。 ①去除唯一属性
唯一属性通常指ID、姓名等属性每个样本的取值都不一样且唯一这些属性不能刻画样本自身的分布规律在做数据预处理时需将这些属性删除。
序 号年龄/岁年收入/元性 别学 历年消费/元13650 000男本科30 00024245 000女本科40 00032330 000男高中46170 000男本科20 00053820 000女大专10 00064245 000女本科40 0007−530 000女本科90 000
②缺失值处理
这里的缺失值指的是单个样本中的数据某些确实并不是样本缺失
常见的缺失值处理方法有3种
直接使用含有缺失值的特征删除含有缺失值的特征缺失值补全。其中缺失值补全是最常用的手段。
A. 均值插补法
是指使用该属性有效值的平均值来插补缺失的值
B. 同类均值插补法
是指首先将样本进行分类或聚类然后以该类中样本的均值插补缺失值。
③重复值处理 在数据处理中重复值指的是数据集中出现了两个或多个完全相同的记录或行。这些记录在所有列上的取值都完全相同没有任何区别。重复值可能是由数据输入错误、数据复制问题或其他原因导致的。 重复值会导致数据的方差变小数据的分布发生较大变化。因此若检查到数据集中有重复数据要将其删除。
④异常值
异常值是指超出或低于正常范围的值如年龄为负数、身高大于3 m等它会导致分析结果产生偏差甚至错误。检查到异常值后可对异常值进行删除或替换处理
序 号年龄/岁年收入/元性 别学 历年消费/元13650 000男本科30 00024245 000女本科40 00032330 000男高中15 00046170 000男本科20 00053820 000女大专10 000
⑤数据定量化
计算机只能处理数值型数据。因此在数据预处理时如果有非数值型数据都要先转换成数值型数据。
序 号年龄/岁年收入/元性 别学 历年消费/元13650 00016030 00024245 00026040 00032330 00012015 00046170 00016020 00053820 00024010 000
在该数据集中性别和学历都是非数值型数据需将其处理成数值型数据如学历“高中”可用20代替“大专”可用40代替“本科”可用60代替性别中的“男”可用1代替“女”可用2代替。
4.数据标准化
数据标准化是指将数据按比例缩放使之落入一个特定区间从而消除数据之间数量级的差异。经过标准化处理后不同的特征可以具有相同的尺度。
①min-max标准化归一化
数据集的每个属性数据表中的列中都有一个最大值和一个最小值分别用max和min表示然后通过一个公式将原始值映射到区间[0,1]上。
序 号年 龄年 收 入性 别学 历年 消 费10.340.6010.6720.50.5111300.2000.17411010.3350.39010.50
整个数据集的数据经过min-max标准化处理后的结果如表所示。 这种处理方法的缺点是当有新数据加入时可能会导致最大值和最小值发生变化需要重新定义。 ②z-score标准化规范化
它是基于原始数据的均值和标准差进行数据标准化的一种方法。
z-score标准化方法适用于属性的最大值和最小值未知的情况或有超出取值范围的离群数据的情况。
公式新值原始值-均值/标准差
序 号年 龄年 收 入性 别学 历年 消 费1−0.330.41−0.820.750.6520.160.121.220.751.583−1.38−0.76−0.82−1.75−0.7441.711.56−0.820.75−0.285−0.16−1.341.22−0.5−1.21
整个数据集的数据经过z-score标准化处理后的数据如表所示。
注意 z-score标准化要求样本属性值数据服从正态分布这就要求样本数量足够多故此案例不适合使用z-score标准化进行数据处理。 5.数据降维
“维度”是指样本集中特征属性的个数。“降维”是指减少特征矩阵中特征的数量。
①目的
为了对数据进行可视化以便对数据进行观察和探索简化机器学习模型的训练使模型的泛化能力更好避免“维度灾难”。
在实际应用中数据一般是高维的。 手写数字“1”及其对应二维矩阵
手写的数字图片如果将其缩放到28x28像素的大小那么它的维度就是28x28784维
对应的图像二维矩阵
数据已经被规范化到01范围内
②权衡
维数太多或太少都不好设置恰当的维数对机器学习模型非常重要。 例如对苹果和梨子进行分类时若只将形状作为特征则很可能会出现错误分类的情况若再将大小作为特征则可减少错误分类的情况若再将颜色作为特征则可进一步减少错误分类的情况。 数据降维最常用的方法是主成分分析法。 深度学习就是对样本的特征进行复杂的变换得到最有效的特征从而提高机器学习的性能。 6.训练模型
①样本数据集的选取
训练集的数据要尽可能充分且分布平衡即每个类别的样本数量差不多否则不可能训练出一个完好的模型验证集或测试集的样本也需要符合一定的平衡分布否则将无法测试出一个准确的模型训练模型和测试模型使用的样本不能相同。
②机器学习算法
训练机器学习模型时要根据具体的学习任务选择合适的算法。
分类任务经常使用的算法有k近邻、朴素贝叶斯、决策树、支持向量机等回归任务经常使用的算法有线性回归、k近邻、决策树等聚类任务经常使用的算法有k均值、DBSCAN、GMM等。
7.评估模型的有效性
一个机器学习模型训练出来后一般需要评估该模型的效果看其是否能满足实际问题的需要。
评估模型的有效性就是利用测试集对模型进行测试评估其输出结果。 事实上我们希望得到一个在新的未知样本上表现很好的模型即泛化能力好的模型。 ①过拟合与欠拟合 如果模型在训练样本上学得“太好”了很可能把训练样本自身的一些特点当成了所有样本的一般性质导致泛化能力下降这种现象在机器学习中称为“过拟合”。
与“过拟合”相对的就是“欠拟合”指对训练样本的一般性质尚未学好。图1-10给出了关于过拟合与欠拟合的一个类比便于理解。
②性能度量
A. 回归任务
残差在数理统计中是指所有拟合数据即模型预测数据与原始数据样本实际值之间的差的和。和方差SSE拟合数据和原始数据对应点的误差的平方和。SSE越接近于0说明模型越好数据预测也越成功。均方误差MSE拟合数据和原始数据对应点误差的平方和的均值。均方根误差RMSEMSE的平方根也称回归任务的拟合标准差。确定系数R2通过数据的变化来表征一个拟合的好坏R2的正常取值范围为[0.1]越接近1表明模型越好。
B.分类任务
分类任务中最常用的评估方法有准确率、精确率、召回率和F1值等。下面以一个二分类问题为例介绍这些评估方法的含义。
真 实 值正 例反 例预 测 值正例真正例 假反例 反例假正例 真反例 在二分类中假设样本有正反两个类别则分类模型预测的结果有两种正例和反例真实数据的标签也有两种正例和反例。那么预测结果与真实标签的组合就有真正例true positive、真反例true negative、假正例false positive和假反例false negative4种情况分别用 TP、 TN、FP 和 FN表示以上4种情况 TP表示真实值与预测值都是正样本的数量 FN表示真实值是正样本而预测值却是反样本的数量 FP表示真实值是反样本而预测值却是正样本的数量 TN表示真实值与预测值都是反样本的数量。 可见Tp与TN都是预测正确的情况。
预测的准确率可定义为
Accurancy(TPTN)/(TpFNFPTN)
而预测的精确率表示预测为正的样本中有多少是真正的正例故精确率可定义为
PrecisionTP/(TPFP)
召回率表示样本中的正例有多少被预测正确了故召回率可定义为
RecallTP/(TPFN)
C.聚类任务
方 法 名是否需要真实值监控最 佳 值ARI兰德系数评价法需要1.0AMI互信息评价法需要1.0V-measure评分需要1.0FMI评价法需要1.0轮廓系数评价法不需要畸变程度最大calinski_harabasz指数评价法不需要相比较最大
在聚类任务中我们希望同一类的样本尽量类似不同类的样本尽量不同。即簇内对象的相似度越大不同簇之间的对象差别越大聚类效果越好。聚类任务常用的评估指标如表所示。
8.使用模型
如果模型的性能能达到实际需求就可以使用该模型预测新样本了。 例如假设区分筷子和牙签的模型训练出来并且能达到实际需求那么就可以将一个新样本的数据长度为14 cm质量为6 g输入到该模型中使用模型预测出输入的数据是筷子还是牙签.