长治网站制作的流程,制作网页完整步骤代码,济南做网站建设公司,多个域名绑定一个网站目录
一、决策树
1、概念
2、基于信息增益的决策树的建立
#xff08;1#xff09;信息熵
#xff08;2#xff09;信息增益
#xff08;3#xff09;信息增益决策树建立步骤
3、基于基尼指数的决策树的建立
4、API
二、随机森林
1、算法原理
2、API
三、线性…目录
一、决策树
1、概念
2、基于信息增益的决策树的建立
1信息熵
2信息增益
3信息增益决策树建立步骤
3、基于基尼指数的决策树的建立
4、API
二、随机森林
1、算法原理
2、API
三、线性回归
1、回归
2、线性回归
3、损失函数
4、多参数回归
5、最小二乘法
6、API
四、总结 一、决策树
1、概念 决策树是一种常用的机器学习算法用于解决 分类和回归问题。它通过递归地将数据集划分为子集构建一棵树形结构每个节点代表一个特征或属性的判断条件叶子节点表示最终的分类结果。 2、基于信息增益的决策树的建立 决策树的核心思想是通过选择最优的特征进行划分从而减少数据的不确定性。以下是基于信息增益的决策树建立步骤
1信息熵 信息熵描述的是 不确定性。信息熵越大不确定性越大。信息熵的值越小则X的纯度越高。 信息熵是衡量数据集纯度的一个指标公式如下 示例 假设一个数据集中有 10 个样本其中 6 个属于类别 A4 个属于类别 B则信息熵为 2信息增益 信息增益Information Gain是决策树中用于选择最优分裂特征的核心指标。它的基本思想是选择能够最大程度降低数据不确定性的特征进行划分。不确定性由信息熵衡量信息增益越大说明使用该特征划分后数据变得更“纯净”分类效果更好。 信息增益是一个统计量用来描述一个属性区分数据样本的能力。信息增益越大那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量, 信息增益公式 3信息增益决策树建立步骤 下面我们通过一个具体例子来详细计算信息增益
假设我们有一个数据集共 10 个样本目标是预测用户是否会购买某产品类别 A购买类别 B不购买。我们考虑使用“天气”这一特征进行划分其分布如下
天气样本数购买不购买 晴天 6 5 1 雨天 4 1 3 总计 10 6 4
我们的目标是计算使用“天气”作为分裂特征时的信息增益。
第一步计算原始数据集的信息熵 H(X)
原始数据集中 信息熵为 计算对数值可使用计算器 代入 第二步计算每个子集的信息熵 H(Xv)
(a) 晴天子集6 个样本 (b) 雨天子集4 个样本 第三步计算加权平均熵 第四步计算信息增益 信息增益与决策判断的关系 信息增益越大说明该特征对分类的帮助越大。在这个例子中“天气”带来了 0.256 的信息增益意味着通过“天气”划分后整体数据的不确定性显著下降。 在构建决策树时我们会比较所有特征的信息增益选择增益最大的特征作为当前节点的分裂依据。 例如如果另一个特征“温度”的信息增益是 0.32大于“天气”的 0.256那么我们就会优先选择“温度”进行分裂。 这体现了决策树的贪心策略每一步都选择当前最优的特征逐步构建一棵高效的分类树。
3、基于基尼指数的决策树的建立
基尼指数是另一种衡量数据集纯度的指标公式如下 基尼指数越小数据集的纯度越高。
4、API
代码示例
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split
x, y load_iris(return_X_yTrue)
x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, random_state0)
# 创建决策树模型
model DecisionTreeClassifier()
model.fit(x_train, y_train)
print(model.score(x_test, y_test))y_pred model.predict([[4.3, 2.6, 1.5, 1.3]])
print(y_pred)
# 导出已经构建的据册数
export_graphviz(model, out_file../src/tree.txt, feature_names[花萼长度, 花萼宽度, 花瓣长度, 花瓣宽度])
结果展示 二、随机森林 森林顾名思义就是有很多棵树。
1、算法原理 随机森林是一种基于决策树的集成学习方法通过构建多棵决策树并结合它们的预测结果来提高模型的泛化能力。其核心思想包括 Bootstrap 抽样从原始数据集中有放回地抽取多个子集每棵树使用不同的子集进行训练。 随机特征选择在每个节点分裂时只考虑一部分随机选择的特征而不是全部特征。 投票机制对于分类任务最终预测结果是所有树的多数投票结果对于回归任务最终预测结果是所有树的平均值。
2、API RandomForestClassifier ( n_estimators100, max_depth5, criterionentropy ) n_estimators: 树的数量, max_depth: 树的最大深度, criterion: 评价标准(entropy: 熵, gini: 基尼系数) 代码示例
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
# 加载数据集
x, y load_iris(return_X_yTrue)
# 数据集划分
x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, random_state0)
# 标准化
scaler StandardScaler()
x_train scaler.fit_transform(x_train)
x_test scaler.transform(x_test)
# 创建随机森林模型 n_estimators: 树的数量, max_depth: 树的最大深度, criterion: 评价标准(entropy: 熵, gini: 基尼系数)
model RandomForestClassifier(n_estimators100, max_depth5, criterionentropy)
model.fit(x_train, y_train)
score model.score(x_test, y_test)
print(score)
# 预测新数据
y model.predict([[1.3,2.5,1.1,0.5]])
print(y)
结果展示 三、线性回归
1、回归 回归的目的是预测数值型的目标值y。最直接的办法是依据输入x写出一个目标值y的计算公式。假如你想预测某人的体重因变量根据他的身高自变量。通过收集一些人的身高和体重数据我们可以找到它们之间的关系。
张三的体重 0.86 * 张三的身高 - 0.5 * 张三的运动时间
这就是所谓的回归方程regression equation其中的 0.86 和 0.5 称为回归系数regression weights求这些回归系数的过程就是回归。一旦有了这些回归系数再给定输入做预测就非常容易了。具体的做法是用回归系数乘以输入值再将结果全部加在一起就得到了预测值。
2、线性回归 概念线性回归是回归的一种它假设因变量与自变量之间存在线性关系。也就是说可以用一条直线来近似描述它们的关系。 例子如果身高和体重的关系是线性的那么我们可以画一条直线这条直线可以表示为 其中“斜率”表示身高每增加1单位体重平均增加多少“截距”表示当身高为0时的体重值虽然实际中身高不可能为0但这是数学上的起点。
3、损失函数 1线性方程 我们为了让我们得到的 方程 模型更加地贴近真实值尽可能地提高准确率由此提出了损失函数。
我们假设 这个最优的方程是: 这样的直线随着w和b的取值不同 可以画出无数条 2为了求解最优值我们引入损失函数 在这无数条中,哪一条是比较好的呢? 我们有很多方式认为某条直线是最优的,其中一种方式:均方差
就是每个点到线的竖直方向的距离平方 求和 在平均 最小时 这条直接就是最优直线 可能很多读者会疑惑一个问题为什么我们要取竖直方向上的差值而不是对于这一点向直线做垂线求距离呢 我们只需要搞清楚直线上的点 代表着 预测值 而 样本点的 y 值代表了真实值所以竖直距离上的差值就是 误差 然后计算 表示第一个点的真实值和计算值的差值 ,然后把第二个点,第三个点...最后一个点的差值全部算出来
有的点在上面有点在下面,如果直接相加有负数和正数会抵消,体现不出来总误差,平方后就不会有这个问题了
所以最后:
总误差(也就是传说中的 损失 ): 平均误差(总误差会受到样本点的个数的影响样本点越多该值就越大所以我们可以对其平均化求得平均值这样就能解决样本点个数不同带来的影响)
这样就得到了传说中的损失函数:
此处的 x值 任取只是举个例子 怎么样让这个损失函数的值最小呢? 3利用初中抛物线的知识或者高中的求导知识求得最低点 我们先假设b0
然后就简单了 算 w 在什么情况下损失函数的值最小( 初中的抛物线求顶点 的横坐标, 高中求导数为0时)
求得w0.795时损失函数取得最小值
那我们最终那个真理函数(最优解)就得到了 注意 实际数据中 x 和 y 组成的点 不一定是全部落在一条直线上我们假设有这么一条直线 ywxb 是最符合描述这些点的最符合的条件就是这个方程带入所有x计算出的所有y与真实的y值做 均方差计算找到均方差最小的那个w这样就求出了最优解的函数(前提条件是假设b0) 4、多参数回归 概念多参数回归是指自变量不止一个的情况。例如除了身高外还可能考虑年龄、性别等因素来预测体重。 例子如果我们不仅用身高预测体重还加入年龄作为另一个自变量那么线性回归的公式就变成了 这里有两个斜率分别表示身高和年龄对体重的影响。
5、最小二乘法 概念最小二乘法是一种优化方法用于求解线性回归中的参数如斜率和截距使得损失函数通常是均方误差最小化。 目标找到一组参数使得损失函数最小。 求解方法可以通过解析法如正规方程或数值优化方法如梯度下降来求解最小化问题。 正规方程适用于小规模数据 其中 梯度下降适用于大规模数据 其中 例子假设我们有几组身高和体重的数据最小二乘法会调整直线的位置即调整斜率和截距使得所有数据点到直线的距离平方和最小。这样得到的直线就是最佳拟合直线。
6、API
代码示例
from sklearn.linear_model import LinearRegression
import numpy as np
# 创建具有8个特征和1个目标值的数据集
datanp.array([[0,14,8,0,5,-2,9,-3,399],[-4,10,6,4,-14,-2,-14,8,-144],[-1,-6,5,-12,3,-3,2,-2,30],[5,-2,3,10,5,11,4,-8,126],[-15,-15,-8,-15,7,-4,-12,2,-395],[11,-10,-2,4,3,-9,-6,7,-87],[-14,0,4,-3,5,10,13,7,422],[-3,-7,-2,-8,0,-6,-5,-9,-309]])
# 取全部行除了最后一列的全部列也就是八个特征
x data[:, :-1]
# 取全部行最后一列也就是目标值
y data[:, -1]
print(x)
print(y)
# 创建线性回归模型
model LinearRegression()
# 训练
model.fit(x, y)
# 权重
print(w:,model.coef_)
# 偏置
print(b:, model.intercept_)
# 预测新数据
y_pred model.predict([[-4,10,6,4,-14,-2,-14,8]])
print(y_pred)
结果展示 四、总结 决策树 是一种基于树形结构的分类和回归算法通过信息增益或基尼指数进行特征选择。 随机森林 是基于决策树的集成学习方法通过 Bootstrap 抽样和随机特征选择提高模型的泛化能力。 线性回归 是一种简单的回归模型通过最小二乘法或梯度下降等方法求解权重参数。 希望这篇博客对你有所帮助如果有任何问题欢迎进一步讨论。