做网站步骤详解,做数据分析好看的网站,防疫网站网页设计,p2p网站开发公司吴恩达老师的机器学习教程笔记
减少误差的一些方法
获得更多的训练实例——解决高方差尝试减少特征的数量——解决高方差尝试获得更多的特征——解决高偏差尝试增加多项式特征——解决高偏差尝试减少正则化程度 λ——解决高偏差尝试增加正则化程度 λ——解决高方差
什么是…吴恩达老师的机器学习教程笔记
减少误差的一些方法
获得更多的训练实例——解决高方差尝试减少特征的数量——解决高方差尝试获得更多的特征——解决高偏差尝试增加多项式特征——解决高偏差尝试减少正则化程度 λ——解决高偏差尝试增加正则化程度 λ——解决高方差
什么是欠拟合什么是过拟合
欠拟合在训练集上存在较大误差 过拟合在训练集上误差较小在测试集实际使用上误差较大
如何计算 将数据集分为70%训练集30%测试集。 在训练集上进行训练在测试集上计算误差。
对于线性回归模型利用测试集计算误差 对于逻辑回归模型利用测试集计算误差、还要计算误分类比率错误分类占总分类的比率
多模型选择
假设有多个不同次数的二项式模型等待选择 将训练集分为训练集60%交叉验证集20%测试集20% 模型选择的方法为
使用训练集训练出 10 个模型用 10 个模型分别对交叉验证集计算得出交叉验证误差代价函数的值选取代价函数值最小的模型用步骤 3 中选出的模型对测试集计算得出推广误差代价函数的值
判断欠拟合和过拟合 训练集误差和交叉验证集误差近似时偏差/欠拟合交叉验证集误差远大于训练集误差时方差/过拟合
正则化方法来防止过拟合
在我们在训练模型的过程中一般会使用一些正则化方法来防止过拟合。但是我们可能会正则化的程度太高或太小了即我们在选择 λ 的值时也需要思考与刚才选择多项式模型次数类似的问题。 我们选择一系列的想要测试的 值通常是 0-10 之间的呈现 2 倍关系的值如0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共 12 个。我们同样把数据分为训练集、交叉验证集和测试集。 选择的方法为 1.使用训练集训练出 12 个不同程度正则化的模型 2.用 12 个模型分别对交叉验证集计算的出交叉验证误差 3.选择得出交叉验证误差最小的模型 4.运用步骤 3 中选出模型对测试集计算得出推广误差我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上 1.当 较小时训练集误差较小过拟合而交叉验证集误差较大 2. 的增加训练集误差不断增加欠拟合而交叉验证集误差则是先减小后增加
学习曲线
欠拟合状态 随着训练集加入更多的数据绘制误差发现增加数据并不能减少误差。
过拟合状态 欠拟合状态随着测试集的增加可以减少误差。