赣州网站维护,怎么设计个人logo,如何制作一个平台软件,谷歌怎么把两个网站做反链目录
一、决策树
二、朴素贝叶斯
三、人工神经网络
四、利用三种方法进行鸢尾花数据集分类 一、决策树
决策树是一种常用的机器学习算法#xff0c;用于分类和回归任务。它是一种树形结构#xff0c;其中每个内部节点表示一个特征或属性#xff0c;每个分支代表这个特征…目录
一、决策树
二、朴素贝叶斯
三、人工神经网络
四、利用三种方法进行鸢尾花数据集分类 一、决策树
决策树是一种常用的机器学习算法用于分类和回归任务。它是一种树形结构其中每个内部节点表示一个特征或属性每个分支代表这个特征的一个可能的取值而每个叶子节点代表一个类别标签或者是一个数值。
决策树的构建过程通常包括以下几个步骤 特征选择根据某种准则选择最优的特征使得每次分裂后的数据集能够尽可能地纯净即同一类别的样本尽可能地聚集在一起。 树的构建根据选定的特征将数据集分割成较小的子集并递归地重复这个过程直到子集中的样本都属于同一类别或达到停止条件。 停止条件可以是树的深度达到预定值、节点中的样本数量小于某个阈值、或者子集中的样本属于同一类别等。 剪枝为了防止过拟合可以通过剪枝技术对生成的决策树进行修剪去除一些不必要的分支。 决策树的优点包括易于理解和解释能够处理数值型和类别型数据对缺失值不敏感能够处理不相关特征以及能够在相对较短的时间内对大型数据集做出预测等。然而决策树也有一些缺点比如容易产生过拟合对于某些复杂的关系可能表现不佳以及对于不平衡的数据集可能不够稳健等。
二、朴素贝叶斯
朴素贝叶斯Naive Bayes是一种基于贝叶斯定理的分类算法它假设特征之间相互独立。尽管这个假设在现实情况中并不总是成立但朴素贝叶斯仍然是一个简单而有效的分类算法在文本分类和垃圾邮件过滤等领域被广泛应用。
这个算法的基本思想可以用贝叶斯定理来描述即通过计算后验概率来进行分类 朴素贝叶斯算法通常有三种常见的模型 多项式朴素贝叶斯适用于特征是离散值的情况比如文本分类中的词频统计。 高斯朴素贝叶斯适用于特征是连续值的情况假设特征的分布服从高斯分布。 伯努利朴素贝叶斯适用于特征是二元的情况比如文本分类中的词是否出现。 朴素贝叶斯算法的优点包括简单、高效、适用于高维数据和大规模数据集缺点是对特征之间的依赖关系做了较强的假设可能导致分类性能下降。 三、人工神经网络
人工神经网络Artificial Neural NetworkANN是受到生物神经系统启发而设计的一种机器学习模型。它由大量的人工神经元组成这些神经元之间通过连接进行信息传递和处理。人工神经网络通常用于模式识别、分类、回归等任务。 人工神经网络的基本组成部分包括 神经元Neuron模拟生物神经元的基本单位每个神经元接收来自其他神经元的输入并产生一个输出。神经元的输入通过权重加权求和并经过激活函数进行处理得到神经元的输出。 连接Connection连接神经元之间的通道用于传递信息。每个连接都有一个权重用于调节输入信号的影响程度。 层Layer神经元按照层次结构排列一般分为输入层、隐藏层和输出层。输入层接收外部输入输出层产生最终的输出而隐藏层在输入层和输出层之间进行信息的传递和转换。 人工神经网络的训练过程通常包括以下几个步骤 初始化随机初始化网络中的权重和偏置。 前向传播从输入层开始通过连接将输入信号传递到隐藏层和输出层并经过激活函数处理得到每个神经元的输出。 计算损失根据模型的输出和真实标签之间的差异计算损失函数用于衡量模型的性能。 反向传播利用反向传播算法根据损失函数计算每个参数权重和偏置对损失的梯度然后根据梯度更新参数。 迭代优化重复执行前向传播和反向传播过程直到损失函数收敛或达到预定的迭代次数。 常见的人工神经网络结构包括多层感知机Multilayer PerceptronMLP、卷积神经网络Convolutional Neural NetworkCNN、循环神经网络Recurrent Neural NetworkRNN等。每种结构都有其特定的应用场景和优缺点可以根据任务的需求选择合适的结构。
四、利用三种方法进行鸢尾花数据集分类 from sklearn.datasets import load_iris # 导入方法类iris load_iris() #导入数据集iris
iris_feature iris.data #特征数据
iris_target iris.target #分类数据
print (iris.data) #输出数据集
print (iris.target) #输出真实标签
print (len(iris.target) )
print (iris.data.shape ) #150个样本 每个样本4个特征from sklearn.tree import DecisionTreeClassifier #导入决策树DTC包from sklearn.datasets import load_iris # 导入方法类iris load_iris() #导入数据集iris
iris_feature iris.data #特征数据
iris_target iris.target #分类数据clf1 DecisionTreeClassifier() # 所以参数均置为默认状态
clf1.fit(iris.data, iris.target) # 使用训练集训练模型
#print(clf)
predicted clf1.predict(iris.data)
#print(predicted)
# print(使用决策树算法)
# print(精度是:{:.3f}.format(clf.score(iris.data, iris.target)))
# viz code 可视化 制作一个简单易读的PDF
iris load_iris() #导入数据集iris
iris_feature iris.data #特征数据
iris_target iris.target #分类数据clf DecisionTreeClassifier() # 所以参数均置为默认状态
clf.fit(iris.data, iris.target) # 使用训练集训练模型
#print(clf)
predicted clf.predict(iris.data)
#print(predicted)# 获取花卉两列数据集
X iris.data
L1 [x[0] for x in X]
#print(L1)
L2 [x[1] for x in X]#输出放在最后方便对比#使用朴素贝叶斯算法对鸢尾花数据集分类
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB, GaussianNB
import matplotlib.pyplot as plt
import numpy as np
import matplotlib as mpl
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipelineiris datasets.load_iris() # 加载鸢尾花数据
iris_x iris.data # 获取数据
# print(iris_x)
iris_x iris_x[:, :2] # 取前两个特征值
# print(iris_x)
iris_y iris.target # 0 1 2
x_train, x_test, y_train, y_test train_test_split(iris_x, iris_y, test_size0.75, random_state1) # 对数据进行分类 一部分最为训练一部分作为测试
# clf GaussianNB()
# ir clf.fit(x_train, y_train)
clf Pipeline([(sc, StandardScaler()),(clf, GaussianNB())]) # 管道这个没深入理解 所以不知所以然
ir clf.fit(x_train, y_train.ravel()) # 利用训练数据进行拟合# 画图y_hat1 ir.predict(x_test)
result y_hat1 y_test
print(result)
acc1 np.mean(result)
# print(使用决策树算法)
# print(准确度: %.2f%% % (100 * acc))#人工神经网络算法对鸢尾花分类
import tensorflow as tf
from sklearn import datasets
from matplotlib import pyplot as plt
import numpy as np# 导入数据分别为输入特征和标签
x_data datasets.load_iris().data
y_data datasets.load_iris().target# 随机打乱数据因为原始数据是顺序的顺序不打乱会影响准确率
# seed: 随机数种子是一个整数当设置之后每次生成的随机数都一样为方便教学以保每位同学结果一致
np.random.seed(116) # 使用相同的seed保证输入特征和标签一一对应
np.random.shuffle(x_data)
np.random.seed(116)
np.random.shuffle(y_data)
tf.random.set_seed(116)# 将打乱后的数据集分割为训练集和测试集训练集为前120行测试集为后30行
x_train x_data[:-30]
y_train y_data[:-30]
x_test x_data[-30:]
y_test y_data[-30:]# 转换x的数据类型否则后面矩阵相乘时会因数据类型不一致报错
x_train tf.cast(x_train, tf.float32)
x_test tf.cast(x_test, tf.float32)# from_tensor_slices函数使输入特征和标签值一一对应。把数据集分批次每个批次batch组数据
train_db tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)# 生成神经网络的参数4个输入特征故输入层为4个输入节点因为3分类故输出层为3个神经元
# 用tf.Variable()标记参数可训练
# 使用seed使每次生成的随机数相同方便教学使大家结果都一致在现实使用时不写seed
w1 tf.Variable(tf.random.truncated_normal([4, 3], stddev0.1, seed1))
b1 tf.Variable(tf.random.truncated_normal([3], stddev0.1, seed1))lr 0.1 # 学习率为0.1
train_loss_results [] # 将每轮的loss记录在此列表中为后续画loss曲线提供数据
test_acc [] # 将每轮的acc记录在此列表中为后续画acc曲线提供数据
epoch 200 # 循环500轮
loss_all 0 # 每轮分4个steploss_all记录四个step生成的4个loss的和# 训练部分
for epoch in range(epoch): #数据集级别的循环每个epoch循环一次数据集for step, (x_train, y_train) in enumerate(train_db): #batch级别的循环 每个step循环一个batchwith tf.GradientTape() as tape: # with结构记录梯度信息y tf.matmul(x_train, w1) b1 # 神经网络乘加运算y tf.nn.softmax(y) # 使输出y符合概率分布此操作后与独热码同量级可相减求lossy_ tf.one_hot(y_train, depth3) # 将标签值转换为独热码格式方便计算loss和accuracyloss tf.reduce_mean(tf.square(y_ - y)) # 采用均方误差损失函数mse mean(sum(y-out)^2)loss_all loss.numpy() # 将每个step计算出的loss累加为后续求loss平均值提供数据这样计算的loss更准确# 计算loss对各个参数的梯度grads tape.gradient(loss, [w1, b1])# 实现梯度更新 w1 w1 - lr * w1_grad b b - lr * b_gradw1.assign_sub(lr * grads[0]) # 参数w1自更新b1.assign_sub(lr * grads[1]) # 参数b自更新# 每个epoch打印loss信息print(Epoch {}, loss: {}.format(epoch, loss_all/4))train_loss_results.append(loss_all / 4) # 将4个step的loss求平均记录在此变量中loss_all 0 # loss_all归零为记录下一个epoch的loss做准备# 测试部分# total_correct为预测对的样本个数, total_number为测试的总样本数将这两个变量都初始化为0total_correct, total_number 0, 0for x_test, y_test in test_db:# 使用更新后的参数进行预测y tf.matmul(x_test, w1) b1y tf.nn.softmax(y)pred tf.argmax(y, axis1) # 返回y中最大值的索引即预测的分类# 将pred转换为y_test的数据类型pred tf.cast(pred, dtypey_test.dtype)# 若分类正确则correct1否则为0将bool型的结果转换为int型correct tf.cast(tf.equal(pred, y_test), dtypetf.int32)# 将每个batch的correct数加起来correct tf.reduce_sum(correct)# 将所有batch中的correct数加起来total_correct int(correct)# total_number为测试的总样本数也就是x_test的行数shape[0]返回变量的行数total_number x_test.shape[0]# 总的准确率等于total_correct/total_numberacc total_correct / total_numbertest_acc.append(acc)print(使用人工神经网络对鸢尾花数据集分类)print(Test_acc:, acc)print(--------------------------)print(使用决策树算法)
print(精度是:{:.3f}.format(clf1.score(iris.data, iris.target)))print(使用朴素贝叶斯算法)
print(准确度: %.2f%% % (100 * acc1))# 绘制 loss 曲线plt.subplot(221)
plt.scatter(X[:50, 0], X[:50, 1], colorred, markero, labelsetosa)
plt.scatter(X[50:100, 0], X[50:100, 1], colorblue, markerx, labelversicolor)
plt.scatter(X[100:, 0], X[100:, 1], colorgreen, markers, labelVirginica)plt.title(DTC)
plt.xlabel(Sepal length)
plt.ylabel(Sepal width)
plt.xticks(())
plt.yticks(())x1_max, x1_min max(x_test[:, 0]), min(x_test[:, 0]) # 取0列特征得最大最小值
x2_max, x2_min max(x_test[:, 1]), min(x_test[:, 1]) # 取1列特征得最大最小值
t1 np.linspace(x1_min, x1_max, 500) # 生成500个测试点
t2 np.linspace(x2_min, x2_max, 500)
x1, x2 np.meshgrid(t1, t2) # 生成网格采样点
x_test1 np.stack((x1.flat, x2.flat), axis1)
y_hat ir.predict(x_test1) # 预测
mpl.rcParams[font.sans-serif] [usimHei] # 识别中文保证不乱吗
mpl.rcParams[axes.unicode_minus] False
cm_light mpl.colors.ListedColormap([#77E0A0, #FF8080, #A0A0FF]) # 测试分类的颜色
cm_dark mpl.colors.ListedColormap([g, r, b]) # 样本点的颜色plt.subplot(222)
plt.pcolormesh(x1, x2, y_hat.reshape(x1.shape), cmapcm_light) # y_hat 25000个样本点的画图
plt.scatter(x_test[:, 0], x_test[:, 1], edgecolorsk, s50, cy_test, cmapcm_dark) # 测试数据的真实的样本点散点 参数自行百度plt.xlabel(u花萼长度, fontsize14)
plt.ylabel(u花萼宽度, fontsize14)
plt.title(uGaussianNB对鸢尾花数据的分类结果, fontsize18)
plt.grid(True)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)#
#plt.title(Loss Function Curve) # 图片标题
plt.xlabel(Epoch) # x轴变量名称
plt.ylabel(Loss) # y轴变量名称
plt.subplot(223)
plt.plot(train_loss_results, label$Loss$) # 逐点画出trian_loss_results值并连线连线图标是Loss
plt.legend() # 画出曲线图标 # 画出图像# 绘制 Accuracy 曲线
plt.subplot(224)
plt.title(Acc Curve) # 图片标题
plt.xlabel(Epoch) # x轴变量名称
plt.ylabel(Acc) # y轴变量名称
# plt.subplot(224)
plt.plot(test_acc, label$Accuracy$) # 逐点画出test_acc值并连线连线图标是Accuracy
plt.legend()
plt.show()
结果