南同网站建设软件下载,郑州 高端网站建设,网站ico设计,wordpress 免费 模板下载#x1f4d5;参考#xff1a;ysu老师课件西瓜书 期末复习笔记 1.集成学习的基本概念
集成学习#xff08;ensemble learing#xff09;通过构建并结合多个学习器来完成学习任务。
有时也被称为多分类器系统#xff08;multi-classifier system#xff09;、基于委员会的…参考ysu老师课件西瓜书 期末复习笔记 1.集成学习的基本概念
集成学习ensemble learing通过构建并结合多个学习器来完成学习任务。
有时也被称为多分类器系统multi-classifier system、基于委员会的学习(committee-based learning)等。 理解集成学习是一种机器学习方法其核心思想是将多个学习器弱学习器集成在一起以达到比单个学习器更好的性能。通过组合多个学习器的预测结果集成学习可以提高整体的泛化能力和稳定性从而在复杂的任务中取得更好的性能。 集成学习的主要目标是通过组合多个模型弥补单个模型的局限性减少过拟合并提高模型的鲁棒性。
优缺点 集成学习的主要优缺点 优点 提高泛化能力 集成学习能够减少模型的方差提高模型的泛化能力。通过组合多个学习器可以弥补单个学习器的局限性提高整体性能。 降低过拟合风险 通过在不同的子集上训练不同的学习器集成学习降低了过拟合的风险。这对于处理复杂的数据和噪声较大的情况非常有用。 提高鲁棒性 集成学习对数据的变化和噪声具有一定的鲁棒性。由于多个学习器的集成模型更能应对不同情况下的变化。 适用于多样的学习器 集成学习可以利用各种不同类型的学习器包括决策树、神经网络、支持向量机等。这使得它在不同类型的问题上都有很好的适应性。 易于并行化 集成学习的训练过程通常可以并行化因为每个学习器可以独立地训练。这有助于提高训练效率。 缺点 增加计算开销 集成学习通常需要训练和集成多个学习器这可能导致较大的计算开销特别是在大规模数据集和复杂模型的情况下。 复杂性 集成学习的模型通常相对复杂这使得它们不太容易解释。在一些应用场景中解释性可能是一个重要的考虑因素。 对参数调整敏感 集成学习的性能通常对参数的选择和调整比较敏感。需要进行仔细的参数调整以达到最佳性能。 不适用于所有问题 集成学习并不总是对所有类型的问题都有效。在一些简单的问题上单个学习器可能已经足够好而不需要引入集成学习的复杂性。 可能受到噪声的影响 如果训练数据中存在大量噪声集成学习可能会受到噪声的影响从而导致模型性能下降。 2.集成学习方法
根据个体学习器的生成方式目前的集成学习方法大致分为两大类
1.个体学习器间存在强依赖关系、必须串行生成的序列化方法Boosting提升法。
2.个体学习器间不存在强依赖关系、可同时生成的并行化方法Bagging装袋法和“随机森林”Random Forest。
1.Boosting提升法
Boosting是一族可以将弱学习器提升为强学习器的算法。
算法思路通过迭代训练一系列弱学习器通常是决策树或其他简单模型每一轮都对前一轮的模型进行修正以提高整体模型的性能。 训练基学习器先从初始训练集训练出一个基学习器更新样本权重根据基学习器的表现对训练样本分布进行调整使得先前基学习器做错的训练样本在后续受到更多的关注重复迭代基于调整后的样本训练下一个基学习器一直重复以上操作直到基学习器数目达到事先指定的值T集成学习最终将这T个基学习器进行加权结合 特点 1.个体学习器之间存在强依赖关系 2.串行生成 3.每次调整训练数据的样本分布 2.Bagging装袋法
这一类方法的核心思想是通过对训练集进行有放回的抽样Bootstrap抽样构建多个独立的学习器然后将它们的预测结果进行平均或投票。著名的算法包括随机森林Random Forest。 BaggingBootstrap Aggregating算法的过程包括以下步骤 Bootstrap抽样 从原始训练集中有放回地抽取若干个样本构成一个新的训练子集。这个过程可以重复多次生成多个不同的子集。 训练独立的学习器 对每个生成的子集使用相同的学习算法可以是决策树、神经网络等独立地训练一个学习器。由于每个子集都是通过Bootstrap抽样得到的这些学习器之间具有一定的差异性。 集成学习 将所有独立学习器的预测结果进行集成。对于分类问题可以采用投票的方式选择获得最多票数的类别作为最终预测结果对于回归问题通常采用平均值或加权平均值。 问题BaggingBootstrap Aggregating算法中的弱学习器必须一样吗
在Bagging中弱学习器通常可以是不同的即它们可以是同一种类型的学习器也可以是不同种类的学习器。核心思想是通过对训练集进行Bootstrap抽样得到多个略有不同的训练子集然后在这些子集上独立地训练弱学习器最终进行集成。
弱学习器的不同性质可以增加集成模型的多样性从而提高整体模型的泛化能力。这样的多样性可以通过使用不同的学习算法、不同的参数设置或者在特征选择上的差异来实现。在实际应用中常常选择同一种学习算法但在不同的子集上进行训练以获得差异化的弱学习器。
3.随机森林Random Forest
随机森林Random Forest是一种基于Bagging思想的集成学习算法它通过构建多个决策树并对它们的输出进行平均或投票来提高整体模型的性能。 随机森林算法流程 Bagging过程 从原始训练集中使用Bootstrap抽样生成多个不同的训练子集。随机抽样 构建决策树 在每个训练子集上独立地训练一个决策树。与传统的决策树不同随机森林是在每个节点上随机选择一部分特征进行划分的。 集成决策树 将所有独立训练的决策树的输出进行平均回归问题或投票分类问题得到最终的随机森林模型。 优缺点 随机森林的优点包括 降低过拟合风险 通过随机选择特征子集每个决策树都在不同的特征子空间上进行训练降低了模型的方差有助于防止过拟合。 提高泛化性能 由于集成了多个模型的意见随机森林通常能够在不同类型的数据集上取得很好的泛化性能。 对于高维数据有效 随机森林对于高维数据的处理相对较好因为每个决策树只使用部分特征。 易于并行化 由于每棵树可以独立构建随机森林的训练过程容易并行化适合在大规模数据集上使用。 随机森林的缺点 不易解释 随机森林由多个决策树组成每个树的决策过程相对独立导致整个模型的解释性较差。对于一些应用场景特别是需要理解模型内部逻辑的情况下随机森林可能不是最佳选择。 计算开销 随机森林包含多个决策树因此在训练和预测时可能需要较大的计算资源。尤其在树的数量很大的情况下可能会对性能产生一定的影响。 对于高维稀疏数据效果较差 随机森林在处理高维稀疏数据例如文本数据时可能不如其他算法表现出色。这是因为在随机选择特征时可能会错过一些关键的特征。 样本不平衡 当数据集存在严重的类别不平衡时随机森林可能对多数类别的预测性能较好而对少数类别的预测性能较差。 3.结合策略
1.平均法
1算数平均法
2加权平均法
一般个体学习器性能相差较大时用加权平均法性能相近时用简单平均法。
2.投票法
1绝对多数投票法即若某lable得票过半数就预测为该lable否则拒绝预测。
2相对多数投票法少数服从多数即预测为得票最多的标记。 若同时有多个标记获最高票则从中随机选取一个。
3加权投票法和加权平均法一样每个基学习器的分类票数与权重相乘最终将各个类别的加权票数求和最大的值对应的类别为最终类别。
3.学习法
代表Stacking
Stacking算法的主要思想是利用弱学习器的学习结果作为输入将初始样本的标记当做样例标记重新训练新的学习器。
在这种情况下将弱学习器称为初级学习器将用于结合的学习器称为次级学习器。