北京网站建设 网络推广,怎么样再自己的网站做二级域名,福州网上办事大厅,橙色网站后台模板本系列博文是对研一课程《模式识别与机器学习》的随堂笔记#xff0c;希望将老师所讲的与自己的见解记录下来#xff0c;方便加深自己的理解以及以后复习查看#xff0c;笔记完全按照老师所讲顺序#xff0c;欢迎交流。
一、模式识别与机器学习的基本问题
机器学习主要解…本系列博文是对研一课程《模式识别与机器学习》的随堂笔记希望将老师所讲的与自己的见解记录下来方便加深自己的理解以及以后复习查看笔记完全按照老师所讲顺序欢迎交流。
一、模式识别与机器学习的基本问题
机器学习主要解决以下四类问题 1.监督学习指的是训练的数据既包括特征feature又包括标签label通过训练让机器可以自己找到特征和标签之间的联系在面对只有特征没有标签的数据时可以判断出标签。监督学习主要分为两类分别为回归问题Regression与分类问题Classification。回归问题的目标是通过对已有数据的训练拟合出恰当的函数模型分类问题的目标是通过分析数据的特征向量与对应类别标签的关系对于一个新的特征向量得到其类别。两者的区别是回归针对连续数据分类针对离散数据。
2.非监督学习指的是在未加标签的数据中找到隐藏的结构由于提供给学习者的实例是未标记的因此没有错误信号损失来评估潜在的解决方案。典型的非监督学习类型包括聚类Cluster、隐马尔可夫模型、使用特征提取的技术降维主成分分析。
3.半监督学习所给的数据有的是有标签的而有的是没有标签的试图利用大量的未标记示例来辅助对少量有标记示例的学习常见的两种半监督的学习方式是直推学习Transductive learning和归纳学习Inductive learning。
4.强化学习Reinforcement learning指的是机器以“试错”的方式进行学习通过与环境交互获得奖赏指导行为目标是使机器获得最大的奖赏。强化学习中由环境提供的强化信号对产生动作的好坏作评价而不是告诉机器如何去产生正确的动作。
二、多项式曲线拟合Polynomial Curve Fitting实例
本课程讲述的机器学习算法多为监督学习算法和非监督学习算法此处用多项式曲线拟合的例子来简述监督学习的过程作为全文开篇的算法来讲解机器学习的共通性。
1.问题描述
输入变量x 目标变量t 生成过程实际问题中是未知的 给定训练样本xt
前文讲述过监督学习是指训练的数据既包括特征又包括标签。在本例中输入变量x即为数据特征目标变量t即为标签我们给定训练样本:xt。生成过程也就是我们将使用的带有参数的待拟合模型实际问题中是未知的需要根据人为的经验选取合适的模型本例中采用的模型为多项式模型公式如下 我们的目标是当给定新的x值时能够通过此模型预测t的值也就是说我们需要利用给定的训练样本估计模型中的参数w。如何计算出最佳的w值采用误差平方和最小的原理即 2.求解问题
问题中参数w的个数M是模型的关键我们假定有10个训练样本分别取M0139来观察模型的拟合情况。 当M01时模型的效果很差很多点不在曲线上当M3时模型效果良好红色线与绿色线基本一致当M9时虽然所有训练数据均在曲线上但模型效果极差红色线与绿色线差别极大10个方程9个未知数相当于模型有确定的解这种情况称为过拟合Over-fitting与之相对应的是欠拟合Under-fitting。我们对M取值的不同情况进行考察得到如下的结果 此处的ERMSE_{RMS}ERMS为均方误差root-mean-square 当M9时此时的训练误差很小为零而测试误差很大这种情况我们称为过拟合相对应的欠拟合是由于训练量少导致的训练误差很大的情况。可见当参数数量很多时接近或超过训练数据的数量会导致过拟合也就是说模型复杂度越高过拟合越容易发生。对于一个模型来说如果它能够对没见过的数据做出预测我们就说它能够从训练集泛化到测试集我们的目标是构造出泛化精度尽可能高的模型。在欠拟合与过拟合间存在一个最佳泛化模型 上述是采用10个训练样本和9个模型参数的情况我们尝试增加训练样本的数量观察训练结果 我们发现训练样本数量越多模型的拟合效果越好同时解决了过拟合的问题说明增加数据集有效地解决了模型复杂度过高导致的过拟合问题。由此可以看出模型复杂度与训练集输入的变化密切相关当我们选择模型时数据集中包含的数据点的变化范围越大在不发生过拟合的前提下可以使用的模型就越复杂。
观察训练后的模型参数发生过拟合情况下的参数往往非常大原因是拟合函数需要考虑每一个训练样本点最终形成的拟合函数波动很大在某些很小的区间里函数值的变化很剧烈意味着在某些区间的函数导数值的绝对值会非常大只有参数系数足够大导数的绝对值才能更大。 为了约束参数的范围采用正则化 的方法可以在一定程度上减少过拟合的情况。 在损失函数尾部所加的计算式即为正则项直观上来看正则项缓解了www的变化可以假设当E(w)E(w)E(w)有同样的ΔE(w)ΔE(w)ΔE(w)时由于正则项始终为正分担了一部分的E(w)E(w)E(w)的变化相对于不加上正则项减缓了由于原损失函数项C0C_0C0导致的www的变化个人理解。严格的数学推导如下 CCC为添加正则项后的损失函数采用梯度下降法进行求解 其中η、λ、nη、λ、nη、λ、n都是正的所以 1−ηλ/n1−ηλ/n1−ηλ/n小于1它的效果是减小www直接减小了www的值防止过大或过小限制www的范围。 λλλ是超参数需要人为设置当λ0λ0λ0时相当于不加入正则项设置不同的λλλ有如下不同的结果 模型参数值如下 正则化有效的缓解了模型的过拟合问题解决途径添加正则项→限制参数→解决过拟合。
未完待续