中国教学网站,杭州网站基建,福州网站建设 网站设计 网站制作,没备案能做网站吗文章目录 第2章 问题建模#xff08;一#xff09;对于多分类问题#xff0c;可否将其看作回归问题进行处理#xff0c;对类别标签又有什么要求#xff1f;#xff08;二#xff09;目前给出的都是已有的评价指标#xff0c;那么这些评价指标#xff08;分类指标和回归… 文章目录 第2章 问题建模一对于多分类问题可否将其看作回归问题进行处理对类别标签又有什么要求二目前给出的都是已有的评价指标那么这些评价指标分类指标和回归指标的损失函数如何实现三解决样本分布不均衡问题时尝试用代码实现样本加权、类别加权和采样算法等几种方式并对比使用权重前后的分数变化。四在对不均衡的数据集进行采样时是否会影响训练集和测试集之间的独立同分布关系五在进行K折交叉验证的时候对于K值的选取是否越大越好呢六在大多数情况下我们会选择使用K折交叉验证那么K折交叉验证为什么能够帮助提升效果呢 第3章 数据探索 最近在看《机器学习算法竞赛实战》虽然很多看不懂但是我觉得学习就是看不懂、然后就厚着脸皮反复看呗我不是一次就能看懂、学会的天才。 思考练习里面的内容我基本都答不上来答案来自CodeGeeX。仅供参考。 第2章 问题建模
一对于多分类问题可否将其看作回归问题进行处理对类别标签又有什么要求
CodeGeeX 对于多分类问题可以将它们看作回归问题进行处理。但是为了 successful会对类别标签提出以下要求 1、每个类别都有一个唯一的数值标签。 2、类别标签必须是 continuous 且 non-negative。 3、类别标签不能存在空值或缺失值。 满足这些要求的类别标签可以使用进行回归问题处理。但是请注意这种方法可能会降低 model 的性能因为多分类问题通常需要 special handling。 【翻译】 continuous连续性 negative负类 non-negative非负类 special handling特殊处理
二目前给出的都是已有的评价指标那么这些评价指标分类指标和回归指标的损失函数如何实现
CodeGeeX 在机器学习中指标如 F1-score、Accuracy、MSE 等通常用于评估模型的性能。这些指标可以使用损失函数如 Log-loss、MSE-loss 等实现。在神经网络训练过程中模型会根据输入数据计算损失函数并根据损失函数的大小更新模型参数。 我 我觉得这个问题CodeGeeX回答的不太好。依据我看书后的理解和总结如下 1、分类问题常见的评价指标 ①错误率与精度 要点加总等于1。 ②准确率与召回率 要点同时使用此消彼长。 ③F1-score 要点调和平均②介于[0,1]区间。 ④ROC曲线 要点正负样本不均衡时依然能够保持不变。该指标不常用。 ⑤AUC 要点极常见的指标。定义为ROC曲线下的面积。取值范围0.5-1之间。 是数值值越大分类器效果越好。 ⑥对数损失 要点常见指标。取值0-1之间。 2、AUC和对数损失对比 同样是概率。 AUC侧重于模型将正样本排到前面的能力。比如广告排序效果。 我理解的是如果要考察排在前几位的就用AUC。比如热度前十增长前十这类的……评价这类的预测用AUC比较好。 对数损失反映平均偏差更偏向于将样本数量多的那类划分准确。评价模型预测的概率是否足够准确。 3、如何实现大概就是代码问题了书上给了准确率、召回率、F1-score
from sklearn.metrics import precision_score, recall_score, f1_score
precision precision_score(y_train, y_pred)
recall recall_score(y_train, y_pred)
f1 f1_score(y_train, y_pred)代码很简单导入模块然后直接使用方法参数就那两个直接放进去 就好啦。 4、回归指标 ①平均绝对误差MAEMean Absolute Error又称为L1范数损失 残差的基础上弄了个绝对值。所谓的“绝对”就是绝对值的意思。 ②均方误差MSEMean Squared Error又称为L2范数损失 残差基础上弄了个平方。 ③均方根误差 在均方误差基础上弄了个开方。 ④平均绝对百分比误差MAPE) 在平均绝对误差MAE基础上除以预测值y’。弥补了MAE的不足真实值越大误差越小。 5、这些指标的损失函数……这个我就不太理解了貌似书上只说了这些指标啊它们还有损失函数吗以后再说吧…… 现实情况是我还没啰嗦完面试官可以滚了下一位……
三解决样本分布不均衡问题时尝试用代码实现样本加权、类别加权和采样算法等几种方式并对比使用权重前后的分数变化。
CodeGeeX 在解决样本分布不均衡问题时可以使用以下几种方式来处理 1、样本加权为不同类别的样本分配不同的权重以便于对不同类别进行均衡采样。 2、类别加权为不同类别的样本分配不同的数量以便于对不同类别进行均衡训练。 3、采样算法使用算法来生成平衡的样本分布例如adasyn、balance_dataset、ClassBalancedSampler 等。 4、使用权重前缀在计算损失函数时使用权重前缀来调整不同类别的重要性。例如在 softmax 损失函数中可以使用权重前缀来调整预测概率的权重。 5、使用 focal lossfocal loss 是一种针对样本分布不均衡问题的损失函数它可以有效地提高识别困难样本的能力。 6、使用 gradient reverse algorithmGRAD 是一种通过调整学习率来解决样本分布不均衡问题的方法它通过最大化正负样本的差值来提高困难样本的训练强度。 我 看不懂……遇到具体问题的时候再说吧……代码实现没有没有……
四在对不均衡的数据集进行采样时是否会影响训练集和测试集之间的独立同分布关系
CodeGeeX 在某些情况下对不均衡的数据集进行采样可能会影响训练集和测试集之间的独立同分布关系。具体来说这取决于采样算法的设计和数据集的性质。一些采样算法如 undersampling欠采样 和 oversampling过采样可以确保训练集和测试集之间的独立同分布关系保持不变。然而一些算法如 balanced sampling平衡取样;对称抽样可能会改变独立同分布关系。 因此在对不均衡的数据集进行采样时需要根据实际需求和数据集的性质来选择合适的采样算法以保持训练集和测试集之间的独立同分布关系。
五在进行K折交叉验证的时候对于K值的选取是否越大越好呢
CodeGeeX 通常情况下K值的选取不是越大越好。在K折交叉验证中K值越大意味着每个验证集的大小越小XTrain和XTest之间的独立同分布关系越小这可能会导致模型泛化能力不足。因此K值的选取需要根据实际需求和数据集的性质来选择。在某些情况下K值可能需要减小到接近于1的值以提高模型的泛化能力。 我 K值过大计算量过大。一般K5或10。
六在大多数情况下我们会选择使用K折交叉验证那么K折交叉验证为什么能够帮助提升效果呢
CodeGeeX K折交叉验证是一种常用的评估方法它可以帮助我们评估模型的泛化能力。与直接使用整个训练集作为验证集相比K折交叉验证可以在不暴露测试集的情况下估计模型的性能从而更准确地评估模型的效果。通过K折交叉验证我们可以看到不同训练集下的模型性能从而更好地理解和优化模型。
第3章 数据探索
更新中…… CodeGeeX