当前位置：首页 > news >正文

wordpress的建站教程中交建设集团天津公司网站

news 2025/11/15 3:49:32

wordpress的建站教程,中交建设集团天津公司网站,上传文件后网站建设中,wordpress权限不够决策树模型决策树基于“树”结构进行决策每个“内部结点”对应于某个属性上的“测试”每个分支节点对应于该测试的一种可能结果#xff08;即属性的某个取值#xff09;每个“叶结点”对应于一个“预测结果” 学习过程#xff1a;通过对训练样本的分析来确定“划分属性”…决策树模型决策树基于“树”结构进行决策每个“内部结点”对应于某个属性上的“测试”每个分支节点对应于该测试的一种可能结果即属性的某个取值每个“叶结点”对应于一个“预测结果” 学习过程通过对训练样本的分析来确定“划分属性”即内部结点所对应的属性预测过程将测试示例从根结点开始沿着划分属性所构成的“判定测试序列”下行直到叶结点决策树简史第一个决策树算法CLSConcept Learning System 使决策树受到关注、成为机器学习主流技术的算法ID3 最常用的决策树算法C4.5 可以用于回归任务的决策树算法CART(Classification and Regression Tree) 基于决策树的最强大算法RF(Random Forest) 决策树的基本算法基本流程策略“分而治之” 自根至叶的递归过程在每个中间结点寻找一个“划分”属性三种停止条件①当前结点包含的样本全属于同一类别无需划分②当前属性集为空或是所有样本在属性集上取值相同无法划分③当前结点包含的样本集合为空不能划分信息增益信息熵信息熵是度量样本集合“纯度”最常用的一种指标假设当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为其中y指的是总共有多少个类 Ent(D)的值越小则D的纯度越高如果p0,则 Ent(D)的最小值0此时D只有一类最大值此时D每个样本都是一类信息增益离散属性a的取值{} D中在a上取值的样本集合以属性a对数据集D进行划分所获得的信息增益为信息增益指的是划分前的信息熵--划分后的信息熵指的是第v个分支的权重样本越多越重要生成决策树的例子增益率信息增益对可取值数目较多的属性有所偏好其中属性a的可能取值数目即分支V越多则的值通常就越大启发式先从候选划分属性中找出信息增益高于平均水平的再从中选取增益率最高的基尼指数基尼指数越小数据集D的纯度就越高属性a的基尼指数在侯选属性集合中选取那个使划分后基尼指数最小的属性划分选择vs剪枝划分选择的各种准则虽然对决策树的尺寸有较大影响但对泛化性能的影响很有限剪枝方法和程度对决策树泛化性能的影响更为显著剪枝是决策树对付“过拟合”的主要手段剪枝为了尽可能正确分类训练样本有可能造成分支过多-过拟合可通过主动去掉一些分支来降低过拟合的风险预剪枝提前终止某些分支的生长后剪枝生成一棵完全树再“回头”剪枝预剪枝后剪枝时间开销训练时间开销降低测试时间开销降低训练时间开销增加测试时间开销降低过/欠拟合风险过拟合风险降低欠拟合风险增加过拟合风险降低欠拟合风险基本不变泛化性能后剪枝通常优于预剪枝连续值基本思路连续属性离散化连续变量取区间的中点作为属性值常见做法二分法 n个属性值可形成n-1个候选划分然后可将它们当做n-1个离散属性值处理缺失值现实应用中经常会遇到属性值“缺失”现象选择划分属性的基本思路样本赋权权重划分缺失值计算信息增益从“树”到“规则” 一棵决策树对应于一个“规则集” 每个从根结点到叶结点的分支路径对应于一条规则好处①改善可理解性②进一步提高泛化能力多变量决策树每个分支结点不仅考虑一个属性“斜决策树”不是为每个非叶节点寻找最佳划分属性而是建立一个线性分类器线性回归离散属性的处理若有“序”则连续化否则转化为k维向量令均方误差最小化有对进行最小二乘参数估计分别对w和b求导令导数为0得到闭式解广义线性模型一般形式是单调可微的联系函数令g(.)ln(.)则得到对数线性回归二分类任务线性回归模型产生的实值输出期望输出y∈{0,1} 对数几率函数简称“对率函数”理想的“单位阶跃函数” 对率回归对数几率回归以对率函数为联系函数变为即无需事先假设数据分布可得到“类别”的近似概率预测可直接应用现有数值优化算法求取最优解若将y看作类后验概率估计p(y1|x) 可写为于是可使用“极大似然法”给定数据集最大化“对数似然”函数

查看全文

http://www.zqtcl.cn/news/229972/