当前位置: 首页 > news >正文

提供网站建设费用html5手机网站发布

提供网站建设费用,html5手机网站发布,镇江网站推广,烟台网站制作哪家好机器学习10-决策树1 学习样本的特征#xff0c;将样本划分到不同的类别#xff08;分类问题#xff09;或预测连续的数值#xff08;回归问题#xff09;。 选择特征#xff0c;划分数据集#xff0c;划分完成形成模型#xff08;树结构#xff09;#xff0c;一个…机器学习10-决策树1 学习样本的特征将样本划分到不同的类别分类问题或预测连续的数值回归问题。 选择特征划分数据集划分完成形成模型树结构一个叶节点是一个类别新的需要判断的数据进入模型根据某种距离最近的那个类就是模型输出 内容有点多要分开 文章目录 机器学习10-决策树1概念流程 一、特征选择信息增益Information Gain例子 信息增益比Gain Ratio为什么信息增益偏向于选择取值较多的特征定义 基尼指数Gini Index 概念 节点Node决策树中的每一个点包括决策节点和叶节点。 决策节点Decision Node表示一个属性的判断节点。 叶节点Leaf Node表示最终决策结果的节点。 分支Branch连接节点的线代表决策的路径。 路径Path从根节点到叶节点的一条完整路径。 通过一系列的决策规则将数据集划分成不同的子集形成一个树状结构。每个内部节点表示一个特征或属性每个分支表示该特征的一个取值每个叶子节点表示一个类别或预测值。 流程 决策树算法的学习过程通常包括三个主要步骤特征选择、决策树的生成和决策树的剪枝。 特征选择在构建决策树时首先需要从数据集中选择最具分类能力的特征。这通常通过计算特征的信息增益、信息增益比或基尼指数等指标来完成。决策树的生成根据选择的特征将数据集划分为若干个子集并为每个子集生成相应的子树。这个过程是递归进行的直到满足某个停止条件。常见的停止条件包括 所有样本都属于同一个类别。 达到预设的树的最大深度。 节点中的样本数少于最小样本数限制。 特征无法再进一步划分。决策树的剪枝由于生成的决策树可能过于复杂存在过拟合的风险因此需要通过剪枝来简化树的结构提高模型的泛化能力。剪枝可以分为预先剪枝和后剪枝两种方法。 一、特征选择 通常基于某种度量这些度量反映了特征对于数据集分类能力的贡献。 基尼指数 计算更简单速度较快因此在CART决策树中常用。 熵 则是更加严格的度量计算信息增益时使用更多应用于 ID3 和 C4.5 决策树算法。 信息增益Information Gain 信息增益衡量的是一个特征对减少数据集的不确定性或熵程度的能力。选择信息增益最大的特征作为当前节点的分裂特征。 信息增益 父节点的熵 - 子节点的加权平均熵 香农说要有熵于是便有了熵 对数据集 k个类别 对于特征 A它将数据集划分为多个子集每个子集的熵加权平均就是条件熵 信息增益是数据集的熵减去特征的条件熵 某个特征划分了数据集后熵不确定性减少的量 选择信息增益最大的特征进行划分。 例子 信息增益比Gain Ratio 信息增益的改进版本。信息增益偏向于选择取值较多的特征而信息增益比考虑了特征自身的熵通过引入固有值Intrinsic Value对偏向进行修正。 为什么信息增益偏向于选择取值较多的特征 特征取值多意味着更细的划分当一个特征的取值较多时它会将数据集划分得更加细致甚至可以将每一个样本单独划分到不同的子集。 例如假设一个特征有很多独特的取值如“ID号”每个样本可能对应一个唯一的取值这样会使条件熵 H(D∣A) 极低甚至接近0因为每个样本已经被完全区分开来。 信息增益只考虑不确定性的减少当特征的取值数量较多时数据集在该特征上的条件熵会显著降低从而导致信息增益增大。信息增益没有对特征的取值数量进行惩罚因此它会倾向于选择那些取值种类多的特征因为这些特征可以最大限度地减少不确定性。 假设你有两个特征 特征A取值种类很多几乎每个样本的取值都不同如用户ID号。 特征B取值种类很少比如只有两个类别如“是否为VIP用户”。即使特征A的实际分类能力不强因其将数据集划分得非常细致信息增益公式会认为它显著减少了数据的不确定性从而得到很高的信息增益值。而特征B尽管可能有更实际的区分能力但因其取值较少划分的效果不会显著信息增益值相对较低。 定义 信息增益比 信息增益 / 特征自身的熵 特征自身的熵 其中n是特征A的取值个数表示特征 的第 个取值对应的样本集合 是总样本集合。 对取值较多的特征进行了惩罚分母更大 基尼指数Gini Index 基尼指数反映了从数据集中随机抽取两个样本其类别不一致的概率 这里会提到的纯度其实就是不确定性的等价概念越纯不确定性越小 选择使得分裂后基尼指数最小的特征作为分裂特征 例子 对于给定的数据集D和特征A根据A划分后基尼指数定义为 和前面思想一样子集的指数加权平均 【机器学习】13-决策树2——决策树生成、剪枝
http://www.zqtcl.cn/news/533495/

相关文章:

  • 手机网站赏析做外贸女装有哪些网站有哪些
  • 网站建设与管理考察报告建材网站开发
  • 张家港专业做网站网站点击量 哪里查询
  • 网站设计软件开发论文网站建设的参考文献
  • 专业建筑工程网站陇西做网站的公司
  • 请别人做网站会不会被盗有创意的广告图片及赏析
  • qq官方网站在家有电脑怎么做网站
  • 做计量检定的网站网站建设专业可行性分析
  • 上饶市建设局网站电脑课做网站所需的软件
  • 广州论坛建站模板网站开发流程原理
  • 网站开发深入浅出 - python篇四川网络营销
  • 做外贸比较好用的网站有哪些网站logo教程
  • 自适应产品网站模板坪地网站建设信息
  • 如何免费推广网站简历生成网站
  • 专业建站开发影视软件开发定制
  • jsp网站开发什么框架中山h5模板建站
  • 网页qq登陆网站旅游网站开发的国内外现状
  • 电影发布网站模板天津网络维护公司
  • 如何用ae做模板下载网站平面设计线上培训机构
  • 地方宣传网站建设的必要性汕头企业网站建站模板
  • html网站源代码网站非法字符过滤
  • 江苏盐城建筑公司网站网络服务提供商是指什么
  • 汕头网站搜索优化视频广告制作
  • 靖边县建设局网站苏州企业网站建设公司价格
  • 沈阳微网站三好街 网站建设
  • 毕业答辩ppt模板免费下载网站网站域名使用怎么做分录
  • 建设购物网站要求网页制作与网站建设 pdf
  • 众创空间网站建设wordpress上传与安装包
  • 公司网站怎么做seo关键词排名优化销售
  • 企业网站建设如何去规划广西南宁网站建设哪家好