当前位置: 首页 > news >正文

住房城乡与建设厅网站方案 网站

住房城乡与建设厅网站,方案 网站,wordpress 变形,高明区做网站在预测分析领域#xff0c;决策树是可应用于回归和分类任务的算法之一 决策树背后的想法是#xff0c;根据数据集中的特征对当时响应变量的贡献方式#xff0c;递归地构建一个颠倒的树状结构。 在每次迭代中#xff0c;将以使得所得模型最小化成本函数的方式选择特征。 该结… 在预测分析领域决策树是可应用于回归和分类任务的算法之一 决策树背后的想法是根据数据集中的特征对当时响应变量的贡献方式递归地构建一个颠倒的树状结构。 在每次迭代中将以使得所得模型最小化成本函数的方式选择特征。 该结构从顶部的根节点开始然后分支并连接到其他节点最终通向树的终端节点或叶子。 树中的每个节点代表一个特征每个链接或分支代表一个决策每个叶子代表一个结果响应变量的类别或连续值 优点缺点 决策树背后的简单性在于通过确定任何给定点最重要的特征来创建模型的方式。 由于它不假设变量之间存在线性或任何关系因此它不仅限于线性或其他相关变量 - 它可以应用于任何数据集。 此外与许多其他算法不同在应用决策树之前不需要进行大量的数据操作 它有时被称为贪婪算法因为它在每一点都试图最大程度地最小化成本函数。 这种过度尝试最小化成本函数可能会导致训练数据的过度拟合从而导致在测试数据上进行预测时出现高方差。通常采用剪枝或装袋等技术来解决这一问题 决策树的类型 根据所使用的成本最小化技术决策树可以有多种分类其中重要的几个是 CART分类和回归树— 使用基尼杂质测量来计算每次迭代的信息增益 ID3迭代二分器 3— 使用熵函数计算信息增益指标 在这里我们将研究 ID3 决策树的熵函数并设计一种算法来计算任何迭代的熵 熵与信息增益 每个特征的每个唯一值的熵计算如下 该特征的信息增益计算如下 其中E(T) 是响应变量的熵 执行 我们将在这里使用 UCI 数据存储库中的 Balloons 数据集。它代表实验的不同条件 根据 4 个预测特征确定响应变量“膨胀”颜色、大小、行为和年龄 # data  Balloons 数据集# N  列数# target  响应变量# en  目标变量的熵# cats  响应变量的唯一值计数字典# vals  当前特征的唯一值计数字典for i in range(0,N-1):     xdata.columns[i]     ig0     for k, v in vals.items():         ent0                 for k1 in cats.keys():             ndata.loc[(data[target]k1)  (data[x]k), x].count() prob  -(n/v) * np.log(n             /v) #计算概率            ent ent  prob            #计算熵        info  info  ((v/total)*ent)  #计算信息        gain  en - ig  #计算信息增益 第一次迭代的背后 让我们看看如何使用上述函数计算第一次迭代的熵和信息增益 Calculate Entropy  Information Gain w.r.t. “Inflated”Column “color”:‘YELLOW’: 32, ‘PURPLE’: 28“Color” YELLOW with “Inflated” TRUE — 19“Color” YELLOW with “Inflated” FALSE — 13“Color” PURPLE with “Inflated” TRUE — 12“Color” PURPLE with “Inflated” FALSE — 16E(YELLOW)  (-19/32)*log(19/32)  (-13/32)*log(13/32)  0.675E(PURPLE)  (-12/28)*log(12/28)  (-16/28)*log(16/28)  0.682I(Color)  (32/60) * 0.675  (28/60) * 0.682 0.678IG(Color)  I(Inflated) — I(Color)  0.693–0.678 0.0149 同样计算剩余列的熵和信息增益 IG(Size)  0.0148IG(Act)  0.131IG(Age)  0.130 选择列“Act”作为根节点因为它具有最高的信息增益 下一步 然后该算法将递归执行以下步骤来构建决策树超出了本文的范围 具有最高信息增益的特征将被指定为该迭代的节点 该节点的分支将由该节点可能的每个唯一值条件/决策形成 分支将通向其他节点具体取决于后续特征和条件 如果没有进一步可能的特征或条件将创建叶节点并且不会进行进一步的分支 这样就可以递归地构建决策树。 然后可以应用该模型来预测响应变量的值或类别 UCI机器学习数据集仓库中的Balloons数据集: 数据集信息 数据集名称:Balloons 数据样本数:76个 特征数:4个 目标变量:1个,气球的颜色(Yellow或Purple) 特征信息 Color:气球的颜色(Yellow,Purple) Size:气球的大小(小,中,大) Act:气球的行为(向上漂浮,向下坠落) Age:气球的年龄(新,中,老) 数据集结构 每行表示一个气球样本,包含Color目标变量和其他3个特征。 数据集用途 这个数据集可以用于分类任务,以气球的其他特征预测其颜色。可以建立分类模型对颜色进行预测。 数据分析 可以计算信息熵、信息增益等,为分类模型选择最优特征。也可以绘制特征分布,了解样本之间的相关性。 以上简要概述了这个小数据集的基本情况。它提供了一个使用真实数据进行分类建模练习的良好 starters例子。 本文由 mdnice 多平台发布
http://www.zqtcl.cn/news/688982/

相关文章:

  • 深圳H5网站开发最新版app下载安装
  • 手机网站免费模板下载成都建设项目环境影响登记网站
  • 上海网站seo公司网站建设公司盈利分析
  • 影评网站怎么做培训总结心得体会
  • 做微站比较好的网站注册子公司流程及所需资料
  • 网站 psd科技公司网站首页
  • 宁波论坛建站模板单页面视频网站
  • 冷饮网站开发背景意义大鱼直播
  • 网站如何建设二级域名代理天津专业做网站
  • 相城区建设局网站如何申请公司邮箱账号
  • 中国空间站名字无锡网站优化
  • 怎么做自己淘宝优惠券网站专业的网站制作公司地址
  • php网页搜索引擎优化的核心本质
  • 在国外社交网站做产品推广wordpress自建站
  • flex 做网站色调网站
  • 金融网站模板源代码阿里巴巴网站建设哪家好
  • 成都市网站公司网站建设制作介绍河南
  • 自己如何建设网站微信开发公司哪家好
  • 混沌鸿蒙网站建设wordpress 后台添加菜单
  • 北辰正方建设集团有限公司网站云南网站开发
  • 郑州网站建设信息前端用什么软件开发
  • 动漫视频网站开发做编程的网站有哪些方面
  • 做搜狗网站优化首页软外贸代运营
  • 巴士定制网站开发宁波快速制作网站
  • 永年区住房和城乡建设局网站网站后台文档
  • 网站备案授权书wordpress教程 页面
  • 深圳网站开发制作安徽全网优化
  • 陕西建设局网站appcms程序怎么做网站
  • 石家庄城乡建设厅网站牡丹江百度推广
  • 网站建设源代码 费用事件网站推广