洛阳设计网站公司,建设银行网站 购买外汇,平潭城乡住房建设厅网站,源码出售网站怎么做这个是全部文档目录 实例数据和前文请看上一篇
增益率:排除子集数量对信息增益的影响
上文中求信息增益中,我们是忽略掉编号这一列的,因为按照编号属性进行计算信息增益,会划分17个子集,每个子集的信息熵Ent均为0,则信息增益Gain就是D的信息熵Ent G a i n ( D , 编号 ) E n…这个是全部文档目录 实例数据和前文请看上一篇
增益率:排除子集数量对信息增益的影响
上文中求信息增益中,我们是忽略掉编号这一列的,因为按照编号属性进行计算信息增益,会划分17个子集,每个子集的信息熵Ent均为0,则信息增益Gain就是D的信息熵Ent G a i n ( D , 编号 ) E n t ( D ) − ( 0 0 . . . . 0 ) E n t ( D ) 0.998 Gain(D,{编号}) Ent(D) - (0 0 .... 0) Ent(D) 0.998 Gain(D,编号)Ent(D)−(00....0)Ent(D)0.998显然,这个信息增益非常高,单却是没有意义的,按照编号建立决策树,将会建立一个一层17分支的决策树.故,我们需要找到一个方法,解决信息增益对数数目校多的属性偏好这一个问题如使用Gain直接除V的数量(V是D按照属性a分组的所有子集,即D的子集数量),好像可以处理掉数目较多属性偏好的这个问题 G a i n ( D , 编号 ) V 0.998 17 0.058 \frac {Gain(D,{编号})}{V} \frac{0.998}{17} 0.058 VGain(D,编号)170.9980.058但是更适合的方法是除以IV(a),称为属性a的’固有值’Intrinsic ValueIV,也称’ 分离信息 ’ (Split information):算法如下: I V ( D , a ) S p l i t I n f o r m a t i o n ( D , a ) − ∑ v 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(D,a) SplitInformation(D,a) -\sum\limits _{v1}^{V}\frac {|D^v|}{|D|}log_2\frac{|D^v|}{|D|} IV(D,a)SplitInformation(D,a)−v1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣故增益率定义为 G a i n _ r a t i o ( D , a ) G a i n ( D , a ) I V ( D , a ) Gain\_ratio(D,a) \frac{Gain(D,a)}{IV(D,a)} Gain_ratio(D,a)IV(D,a)Gain(D,a)但是会带来一个新的问题,这个增益率会对数目较少的属性,有更强的偏好.(正好与信息增益的偏好相反)故C4.5决策树算法,不是直接取增益率最高的属性,而是使用了一个启发式: 从候选划分属性中选出信息增益大于平均水平的属性,再选增益率最高的.