快速建网站软件,策划书格式模板范文,app开发定制公司推荐,郑州广告设计与制作公司文章目录 一、机器学习做什么二、机器学习的基本术语2.1、数据相关2.1.1、数据集2.1.2、特征#xff08;Feature#xff09;2.1.3、样本空间#xff08;Sample Space#xff09; 2.2、任务相关2.2.1、分类2.2.2、回归2.2.3、聚类2.2.4、监督学习和无监督学习 三、机器学习思… 文章目录 一、机器学习做什么二、机器学习的基本术语2.1、数据相关2.1.1、数据集2.1.2、特征Feature2.1.3、样本空间Sample Space 2.2、任务相关2.2.1、分类2.2.2、回归2.2.3、聚类2.2.4、监督学习和无监督学习 三、机器学习思想3.1、泛化能力!3.2、假设空间和版本空间!3.3、归纳偏好!3.3.1、解释 四、外话4.1、泛化4.1.2、泛化的关键4.1.3、提高泛化能力 若考虑所有潜在的问题则所有学习算法都一样好.要谈论算法的相对优劣必须要针对具体的学习问题在某些问题上表现好的学习算法在另一些问题上却可能不尽如人意学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用. 一、机器学习做什么 机器学习致力于研究如何通过计算的手段利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于在计算机上从数据中产生“模型 model的算法即 “学习算法”learning algorithm。可以说机器学习是研究关于 “学习算法”的学问。
通俗来讲例如经过我们的百般阅历我们可以从一个人的行为可以判断一个人的好坏是否是学霸是否是神经病这是我们通过不断的学习认识获得的能力。同样的计算机通过数据 学习 产生 这种能够判断事物类别的模型就属于一种机器学习。机器学习是研究关于 “学习算法” 的学问。这里的学习并不是动词而是一个形容词。可以理解为机器学习这一领域是一种研究 用什么样的算法 能更好的学习到已有数据中的规律从而产生模型 的学问而这些算法都是学习算法也叫作机器学习算法。具有学习性质的算法。 用“模型”泛指从数据中学得的结果。 二、机器学习的基本术语
2.1、数据相关
数据集示例/样本/特征向量同一概念属性/特征/属性空间/样本空间/输入空间标记/标签/标记空间/输出空间 通俗来讲数据集就是你所拥有的全部数据即全部样本特征向量样本特征向量是这些数据中的某一项及其属性比如这里的瓜1属性特征是这些样本中的某一特征比如这里的色泽属于瓜的某一个特征每个特征上有一个值称为属性值特征值而样本空间是所有属性可能取值构成的集合张成的空间这个空间上包含了瓜的所有可能性。就和随机数学里面的随机试验的样本空间差不多。在一些“预测”模型中需要一些标记即这些瓜的类别好瓜还是坏瓜好人还是坏人神经病还是正常人。所有标记的集合是标记空间。
2.1.1、数据集 想象一下我们站在一个充满各种西瓜的市场中有的西瓜青绿色有的乌黑有的根蒂蜷缩有的稍显蜷曲敲击时有的响声浑厚有的则显得沉闷。如果我们将每一个西瓜的这些特征连同我们对它是否为好瓜的评价或者价格记录下来那么这些记录的集合就构成了我们的数据集。在这个数据集中每一条记录描述了一个西瓜的独特特征称为一个样本。样本中关于是否是好瓜的判断则是我们所说的标签而所有可能的标签如好瓜与不好瓜构成了标签空间。 当我们把这些样本用来训练机器学习模型时这些数据就被称为训练数据而单个样本则成为一个训练样本。所有这些训练样本共同组成了我们的训练集。
2.1.2、特征Feature 在描述西瓜时我们提到了“色泽”、“根蒂”和“敲声”。这些用来反映西瓜在某方面表现或性质的事项就是所谓的特征。特征是我们用来描绘和区分每一个西瓜的工具而特征的数量即我们用来描述西瓜的属性数量被称为样本或特征向量的维数。
2.1.3、样本空间Sample Space 如果我们将每个特征视为一维空间那么所有的特征共同构成的空间就是我们的样本空间。比方说以“色泽”、“根蒂”和“敲声”为三个坐标轴我们可以将它们想象成构建了一个三维空间用以描述西瓜的世界。在这个空间中每个西瓜都可以找到一个唯一的坐标位置这个位置由其特征值组成的向量确定我们称之为特征向量。 特征向量实际上就是将特征概念包含进去的样本即样本实际上就是特征向量。
2.2、任务相关
2.2.1、分类
预测的是离散值的学习任务。
如果只涉及到两个类别则称为二分类任务。两类一个称为正类另一个称为负类反类。 如果涉及到多个类别则称为多分类任务。
2.2.2、回归
预测的是连续值的学习任务。分类和回归的区别仅在此。
2.2.3、聚类 2.2.4、监督学习和无监督学习
根据是否有标记机器学习大致划分为两大类监督学习和无监督学习。
分类和回归是监督学习的代表因为它们都是提前有标记的。聚类是无监督学习的代表因为它通常是没有标记的并且我们是通过不同特征向量之间特征的潜在规律进行划分成簇的划分之后的类别并不为我们事先知晓而是机器自动学习出来的规律类别。
三、机器学习思想
3.1、泛化能力! 机器学习的目标是使学得的模型能很好地适用于新样本而不是仅仅在训练样本上工作得很好。 机器学习需要有从已有样本中归纳学习的能力以此来适用于没有见过的样本。学习的目的是泛化。 学得模型适用于新样本的能力称为泛化能力。 泛化Generalization是指模型对未见过的新数据的处理能力即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律而不是仅仅记住训练数据的特点和噪声后者的现象被称为过拟合Overfitting。
3.2、假设空间和版本空间! 为了理解3.3我们需要先理解假设假设空间版本空间的概念。
假设Hypothesis在机器学习中假设是根据训练集归纳出的一种规律或模式。这种规律是模型用来对新数据做出预测的依据。简单来说假设就是模型认为最可能描述数据真实关系的规则。而这个特定问题真正潜在的规律称为真实机器学习 从训练集中学习到的规律称为假设。假设空间Hypothesis Space假设空间包含了所有可能的假设。*这些假设是根据模型的结构和我们选择的特征而定义的它包括了所有模型可能采用的规则或模式来解释数据。假设空间的大小和复杂度取决于模型的复杂性和特征的数量。这里的假设空间是抛开训练集不管的所有可能数据集中存在的规律。版本空间Version Space是在假设空间中能够使得与训练集一致的规律集合这里的规律抽象为一个假设。同一个训练集可能不同机器学习算法可以学习出不同假设也是因为同一个训练集存在一个版本空间。
3.3、归纳偏好! 既然同一个训练集可能有多种规律和它匹配那我们该怎么做呢 对于一个具体的学习算法而言它必须要产生一个模型.这时学习算法本身的“偏好”就会起到关键的作用。 机器学习算法在学习过程中对某种类型假设的偏好称为 “归纳偏好”inductive bias,或简称为“偏好”。之前说过归纳 即学习规律。并且我们的学习算法必须有某种偏好才能产出它认为“正确”的模型.
3.3.1、解释 归纳偏好Inductive Bias是机器学习算法在面对同一个训练集时倾向于选择某种特定假设的倾向性或偏好。由于训练数据通常无法完全确定目标函数所以机器学习算法必须利用归纳偏好来做出选择决定它认为最可能的假设是什么。这种偏好影响着模型的泛化能力即模型对未见过数据的预测能力。 为什么存在归纳偏好 因为在实践中对于给定的训练数据集可能有多个或者无数个假设与训练数据一致但这些假设对于未见过的数据的预测可能完全不同。归纳偏好帮助算法在这些可能的假设中做出选择。 归纳偏好的例子假设我们有两种算法一种是梯度提升树Gradient Boosting另一种是随机森林Random Forest。尽管两者都是决策树的集成方法但它们的归纳偏好不同。梯度提升树通过逐步减少模型误差的方式构建树倾向于更加关注错误分类的样本而随机森林通过构建多个独立的树并对它们的结果进行平均或多数投票来工作倾向于提高整体的稳定性和减少过拟合。这两种方法因其不同的偏好在不同的数据集和问题上表现出不同的效果。 归纳偏好的重要性选择哪种机器学习算法并不仅仅是技术上的选择实际上也是基于对问题本身先验知识的一种假设。因为不同的算法由于其内在的归纳偏好可能在某些类型的数据上表现更好在其他数据上则不然。因此理解并选择与你面对的问题相匹配的算法的归纳偏好是提高模型性能的关键。
四、外话
4.1、泛化 在机器学习领域泛化Generalization 是指模型对未见过的新数据的处理能力即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律而不是仅仅记住训练数据的特点和噪声后者的现象被称为过拟合Overfitting。
4.1.2、泛化的关键
泛化误差Generalization Error通常指模型在新的数据集上的预测误差。理想情况下我们希望模型的泛化误差尽可能小这意味着模型对未知数据的预测能力较强。过拟合Overfitting与欠拟合Underfitting过拟合是指模型在训练数据上表现异常良好但在新数据上表现不佳的现象而欠拟合则是指模型在训练数据上就表现不佳导致在新数据上的表现也不理想。泛化的目标是在这两者之间找到平衡点。
4.1.3、提高泛化能力
为了提高模型的泛化能力研究人员和工程师可能会采用以下一些策略
数据增强Data Augmentation通过对训练数据进行变换和扩充增加模型训练过程中的数据多样性。正则化Regularization通过引入额外的信息如权重的大小或复杂度来限制模型的复杂度防止过拟合。交叉验证Cross-validation通过将数据集分为多个小组然后使用其中一部分进行训练、另一部分进行验证可以更准确地评估模型的泛化能力。模型简化简化模型的复杂度例如减少网络层数或参数的数量有时可以防止过拟合从而提高泛化能力。集成学习Ensemble Learning通过组合多个模型的预测来提高整体模型的泛化能力。