当前位置: 首页 > news >正文

网站后台购买flash网站模板 asp

网站后台购买,flash网站模板 asp,网店推广的作用是选择题,网站制作前期所需要准备ID3 ID3算法在特征选择时#xff0c;使用的指标是信息增益#xff08;Information Gain#xff09;#xff0c;信息增益是基于熵#xff08;entropy#xff09;的概念#xff0c;熵是用来衡量数据集中的不确定性或纯度的一个指标。当熵值高时#xff0c;数据集的不确定…ID3 ID3算法在特征选择时使用的指标是信息增益Information Gain信息增益是基于熵entropy的概念熵是用来衡量数据集中的不确定性或纯度的一个指标。当熵值高时数据集的不确定性大反之亦然。 信息增益的计算公式为 I G ( D , A ) E n t r o p y ( D ) − ∑ v ∈ V a l u e s ( A ) ∣ D v ∣ ∣ D ∣ ⋅ E n t r o p y ( D v ) IG(D, A) Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} \cdot Entropy(D_v) IG(D,A)Entropy(D)−v∈Values(A)∑​∣D∣∣Dv​∣​⋅Entropy(Dv​) 其中 I G ( D , A ) IG(D, A) IG(D,A) 是数据集 D D D 关于特征 A A A 的信息增益。 E n t r o p y ( D ) Entropy(D) Entropy(D) 是数据集 D D D 的熵。 V a l u e s ( A ) Values(A) Values(A) 是特征 A A A 所有可能的值。 D v D_v Dv​ 是数据集 D D D 中特征 A A A 取值为 v v v 的子集。 E n t r o p y ( D v ) Entropy(D_v) Entropy(Dv​) 是子集 D v D_v Dv​ 的熵。 C4.5 信息增益倾向于选择具有更多值的属性。为了克服这个问题C4.5引入了信息增益比这个指标考虑了特征的内在信息并且对具有大量值的特征进行惩罚。 信息增益比的计算公式为 G a i n R a t i o ( D , A ) I G ( D , A ) S p l i t I n f o ( D , A ) GainRatio(D, A) \frac{IG(D, A)}{SplitInfo(D, A)} GainRatio(D,A)SplitInfo(D,A)IG(D,A)​ 其中 S p l i t I n f o ( D , A ) SplitInfo(D, A) SplitInfo(D,A) 是对特征 A A A 的分裂信息用于度量分裂的平均信息值或分裂的“广度”和“均匀性”其计算公式为 S p l i t I n f o ( D , A ) − ∑ v ∈ V a l u e s ( A ) ∣ D v ∣ ∣ D ∣ ⋅ log ⁡ 2 ∣ D v ∣ ∣ D ∣ SplitInfo(D, A) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} \cdot \log_2 \frac{|D_v|}{|D|} SplitInfo(D,A)−v∈Values(A)∑​∣D∣∣Dv​∣​⋅log2​∣D∣∣Dv​∣​特征选择时C4.5选择信息增益比最高的特征进行分裂。使用信息增益比可以减少对多值特征的偏好使得生成的决策树更加平衡。 C4.5算法的其他特点 支持连续特征C4.5可以处理连续和离散特征连续特征的处理是通过将值排序并找到最佳分割点将其转换为离散值。 剪枝C4.5使用后剪枝方法来避免过拟合这意味着它首先生成一个完整的树然后删除那些对分类效果贡献不大的节点。 缺失值处理C4.5有一套内建的机制来处理缺失值允许它在不完整的数据集上工作。 C4.5是一个十分强大且广泛使用的决策树生成算法它的改进版本C5.0在速度和内存使用等方面有了进一步的优化。 CART CART树是一种二叉树每个内部节点都对应于一个输入特征和一个阈值将数据集分为两个子集分别进入左子树和右子树。根据目标不同又可分为 分类树 和 回归树。 CART 分类树 对于分类问题CART树的建立过程包括 特征选择CART树使用基尼不纯度Gini impurity作为特征选择的标准。基尼不纯度是从一个数据集中随机选择两个样本它们的类标签不一致的概率。基尼不纯度最小的特征被用于分割。 基尼不纯度的计算公式为 G i n i ( p ) 1 − ∑ i 1 J p i 2 Gini(p) 1 - \sum_{i1}^{J}p_i^2 Gini(p)1−i1∑J​pi2​ 其中 p i p_i pi​ 是第 i i i 个类别的相对频率 J J J 是类别的总数。 树的构造从根节点开始递归地使用特征选择方法分割数据生成二叉树。每个内部节点代表一个特征和阈值的判断根据判断结果样本被分到左子树或右子树。这一过程持续进行直到满足停止条件比如节点中的样本数量少于预设的阈值或者节点的不纯度降至某个水平以下。 剪枝为了避免过拟合CART树在构造完成后会进行剪枝将一些子树替换为叶节点。剪枝过程基于成本复杂度剪枝Cost-Complexity Pruning这涉及到一个参数 α \alpha α被称为复杂度参数用于控制树的复杂度和拟合的程度。 CART 回归树 对于回归问题CART树的建立过程类似但是有两个主要区别 特征选择CART回归树在每个节点上选取特征和划分阈值以最小化两个子节点的平均平方误差Mean Squared Error, MSE或平均绝对误差Mean Absolute Error, MAE。 剪枝回归树的剪枝过程同样使用成本复杂度剪枝但是考虑的是平方误差与子树复杂度之间的平衡。 CART算法优点 简单直观易于理解和解释。 既能处理分类问题也能处理回归问题。 能够处理数值型和类别型特征。 通过剪枝可以有效防止过拟合。 CART算法缺点 对异常值敏感容易受到噪声影响。 贪心算法的本质使得CART并不一定能够找到全局最优解。 倾向于生成偏向于拥有更多水平的树因为二叉分割会导致不平衡的树结构。 CART树在许多领域都有应用如医学、金融、市场营销等并且它是许多集成学习方法例如随机森林和梯度提升树的基础。
http://www.zqtcl.cn/news/234911/

相关文章:

  • 哪些网站可以免费做推广呢o2o营销模式
  • 注册网站的流程南京今天的最新消息
  • 做网站的没有进项票怎么办张家口市一建公司官网
  • 建设网站的本质智慧团建手机版
  • 嘉兴网站建设有前途吗沈阳男科医院排名10强名单公布
  • 手机网站变灰17种新型商业模式
  • 图书网站开发需求文档模板做网站现在用什么语言
  • 创建网站主题在哪里接单赚钱平台
  • 企业做网站的流程权威发布新闻的含义
  • 国外大型购物网站桂林视频网站制作
  • 平度那里有做网站的网站设计技术入股
  • 张家港专业做网站网站设计与建设ppt
  • 香奈儿网站设计分析网站建设新闻发布注意事项
  • 建设网站策划南京网站开发建设
  • 哪些网站可以做任务挣钱如何查询企业电话号码
  • 福田网站 建设深圳信科手机 网站制作
  • 网站站内优化方案佛山外贸网站建设哪家好
  • 厦门市网站建设局平台网站如何优化
  • 电子书网站用dz还是wordpresswordpress搭建购物网站
  • 广西住房和城乡建设培训中心网站吴江住房和城乡建设部网站
  • 游戏网站的导航条怎么做的安阳县属于哪个省哪个市
  • 网站建设科目国内有多少家做网站的企业
  • 如何建立一家公司网站江苏网站推广公司
  • 城市管理如何宣传市建设网站cms软件有什么功能
  • 网站建设优势网站为什么吸引人
  • 域名如何做网站网站导读怎么做
  • 那些网站可以做问答免费设计室内装修app软件
  • 白银做网站视频制作软件下载安装
  • 商城网站建设最新报价现在网站建设的技术
  • 网站设计思路方案广东深圳软件开发公司