电子拜年贺卡在线制作网站,wordpress 手机 插件,青海企业网站建设公司,什么样的公司愿意做网站数据集划分
子集划分
训练集#xff08;Training Set#xff09;#xff1a;帮助我们训练模型#xff0c;简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集#xff08;Validation Set#xff09;#xff1a;也叫做开发集#xff08; Dev Set #xf…数据集划分
子集划分
训练集Training Set帮助我们训练模型简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集Validation Set也叫做开发集 Dev Set 用来做模型选择model selection即做模型的最终优化及确定的用来辅助我们的模型的构建即训练超参数可选 测试集Test Set 为了测试已经训练好的模型的精确度。 三者划分训练集、验证集、测试集区别与数据量有关 机器学习60%20%20%70%10%20%不划验证集就75%25% 深度学习98%1%1% 假设百万条数据
交叉验证 使用训练集训练出k个模型用k个模型分别对交叉验证集计算得出交叉验证误差代价函数的值选取代价函数值最小的模型用步骤3中选出的模型对测试集计算得出推广误差代价函数的值
不平衡数据的处理
数据不平衡是指数据集中各类样本数量不均衡的情况. 常用不平衡处理方法有采样和代价敏感学习 采样欠采样、过采样和综合采样的方法 SMOTE(Synthetic Minority Over-sampling Technique)算法是过采样中比较常用的一种。算法的思想是合成新的少数类样本而不是简单地复制样本。算法过程如图 代价敏感学习 代价敏感学习是指为不同类别的样本提供不同的权重从而让机器学习模型进行学习的一种方法 比如风控或者入侵检测这两类任务都具有严重的数据不平衡问题可以在算法学习的时候为少类样本设置更高的学习权重从而让算法更加专注于少类样本的分类情况提高对少类样本分类的查全率但是也会将很多多类样本分类为少类样本降低少类样本分类的查准率。
评价指标(分类问题) 例 有100张照片其中猫的照片有60张狗的照片是40张。 输入这100张照片进行二分类识别找出这100张照片中的所有的猫。 正例Positives识别对的 负例Negatives识别错的 TP、TN对角线的数据越多越好 AUC是ROC曲线下的面积面积越大越好 PR曲线是精度和昭回度的曲线曲线下的面积越大越好
正则化、偏差与方差 模型复杂度与误差的关系一般来说随着模型复杂度的增加方差会逐渐增大偏差会逐渐减小在虚线处差不多是模型复杂度的最恰当的选择其“偏差”和“方差”也都适度才能“适度拟合” 训练集误差和交叉验证集误差近似时偏差/欠拟合 交叉验证集误差远大于训练集误差时方差/过拟合
获得更多的训练实例——解决高方差尝试减少特征的数量——解决高方差尝试获得更多的特征——解决高偏差尝试增加多项式特征——解决高偏差尝试减少正则化程度λ——解决高偏差尝试增加正则化程度λ——解决高方差