官方网站下载12306,免费的oa办公系统排名,东莞建域名网站,建设银行宁夏分行网站一、学习曲线#xff08;Learning curves)
用处#xff1a;帮助了解学习算法性能如何的方式
曲线随着经验的数量#xff08;算法所拥有的训练样本#xff09;发生的变化
PS: 随着训练样本的增大#xff0c;交叉验证误差会越来越小#xff0c;趋于平稳#xff1b;而训…一、学习曲线Learning curves)
用处帮助了解学习算法性能如何的方式
曲线随着经验的数量算法所拥有的训练样本发生的变化
PS: 随着训练样本的增大交叉验证误差会越来越小趋于平稳而训练集的误差会越来越大趋于平稳因为模型很难去符合所有的样本。
如果算法本身就是高偏差训练集的误差大那增加数据集也不会让偏差改变太多。所以在确定是否要增加数据集之前要先看我们的算法是否有高偏差。
而如果我们的算法是有高方差也就是训练集的误差低于我们所知的准线误差而交叉验证误差要高于准线误差的情况这个时候就是可以增加数据集了因为函数过拟合。
综上
高偏差增加数据集的量可能没有用
高方差增加数据集的量可能有用
所以一般在做实验的时候假如我们的数据集有1000条数据为了看我们是高偏差还是高方差我们会选择先选取100条或者200条数据这样逐步递增把学习曲线画出来看看数据量的增加J_cv 和J_train之间的关系这样才能判断是高偏差还是高方差
二、高偏差和高方差的调整
解决高方差过拟合 1. 增加训练集的数据样本 2. 尝试更少的特征 3. 尝试增加正则化参数的值
解决高偏差欠拟合 1. 增加特征 2. 尝试多项式特征 3. 尝试减小正则化参数的值
但是实际上我们可以通过训练神经网络来解决高偏差和高方差
当具有高偏差时可以增加神经网络的层数和神经元数量来调整直到高偏差消失。 此时如果具有高方差就可以通过正则化参数的调整来让高方差消失。这样就可以无脑训练出一个合适的模型。
三、误差分析过程Error analysis process)
指人工检查算法出错的这些样本对样本进行主题/属性的分类找到是为什么让样本出错针对性的去解决问题。比如算法可能是因为A、B 和C出错那就要看哪种占比更大因为解决占比更大的错误才能让算法的效能提升更大。
数据增强使用现有的数据生成新的数据。比如给了一张图片可以把这种图片旋转、放大或改变对比度等方式来生成新的几张图片
数据合成从空白开始创造全新的例子而不是对现有的例子进行修改
四、迁移学习Transfer learning)
对于一个没有那么多数据的算法应用迁移学习可以让你用来自不同任务的数据帮助你解决当前任务。