当前位置: 首页 > news >正文

网站开发明细报价表吉林省做网站公司

网站开发明细报价表,吉林省做网站公司,网站建设 笔记,网上做效果图的平台1.数据集划分 1.1 为什么要划分数据集? 思考#xff1a;我们有以下场景#xff1a; 将所有的数据都作为训练数据#xff0c;训练出一个模型直接上线预测 每当得到一个新的数据#xff0c;则计算新数据到训练数据的距离#xff0c;预测得到新数据的类别 存在问题我们有以下场景 将所有的数据都作为训练数据训练出一个模型直接上线预测 每当得到一个新的数据则计算新数据到训练数据的距离预测得到新数据的类别 存在问题 上线之前如何评估模型的好坏 模型使用所有数据训练使用哪些数据来进行模型评估 结论不能将所有数据集全部用于训练 为了能够评估模型的泛化能力可以通过实验测试对学习器的泛化能力进行评估进而做出选择。因此需要使用一个 测试集 来测试学习器对新样本的判别能力以测试集上的 测试误差 作为泛化误差的近似。 一般测试集满足: 能代表整个数据集测试集与训练集互斥测试集与训练集建议比例: 2比8、3比7 等 1.2 数据集划分的方法¶ 留出法将数据集划分成两个互斥的集合训练集测试集 训练集用于模型训练测试集用于模型验证也称之为简单交叉验证 交叉验证将数据集划分为训练集验证集测试集 训练集用于模型训练验证集用于参数调整测试集用于模型验证 留一法每次从训练数据中抽取一条数据作为测试集 自助法以自助采样可重复采样、有放回采样为基础 在数据集D中随机抽取m个样本作为训练集没被随机抽取到的D-m条数据作为测试集 1.3 留出法(简单交叉验证) 留出法 (hold-out) 将数据集 D 划分为两个互斥的集合其中一个集合作为训练集 S另一个作为测试集 T。 from sklearn.model_selection import train_test_split from sklearn.model_selection import StratifiedShuffleSplit from sklearn.model_selection import ShuffleSplit from collections import Counter from sklearn.datasets import load_irisdef test01():# 1. 加载数据集x, y load_iris(return_X_yTrue)print(原始类别比例:, Counter(y))# 2. 留出法(随机分割)x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2)print(随机类别分割:, Counter(y_train), Counter(y_test))# 3. 留出法(分层分割)x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, stratifyy)print(分层类别分割:, Counter(y_train), Counter(y_test))def test02():# 1. 加载数据集x, y load_iris(return_X_yTrue)print(原始类别比例:, Counter(y))print(* * 40)# 2. 多次划分(随机分割)spliter ShuffleSplit(n_splits5, test_size0.2, random_state0)for train, test in spliter.split(x, y):print(随机多次分割:, Counter(y[test]))print(* * 40)# 3. 多次划分(分层分割)spliter StratifiedShuffleSplit(n_splits5, test_size0.2, random_state0)for train, test in spliter.split(x, y):print(分层多次分割:, Counter(y[test]))if __name__ __main__:test01()test02() 1.4 交叉验证法  K-Fold交叉验证将数据随机且均匀地分成k分如上图所示k为10假设每份数据的标号为0-9 第一次使用标号为0-8的共9份数据来做训练而使用标号为9的这一份数据来进行测试得到一个准确率第二次使用标记为1-9的共9份数据进行训练而使用标号为0的这份数据进行测试得到第二个准确率以此类推每次使用9份数据作为训练而使用剩下的一份数据进行测试共进行10次训练最后模型的准确率为10次准确率的平均值这样可以避免了数据划分而造成的评估不准确的问题。 from sklearn.model_selection import KFold from sklearn.model_selection import StratifiedKFold from collections import Counter from sklearn.datasets import load_irisdef test():# 1. 加载数据集x, y load_iris(return_X_yTrue)print(原始类别比例:, Counter(y))print(* * 40)# 2. 随机交叉验证spliter KFold(n_splits5, shuffleTrue, random_state0)for train, test in spliter.split(x, y):print(随机交叉验证:, Counter(y[test]))print(* * 40)# 3. 分层交叉验证spliter StratifiedKFold(n_splits5, shuffleTrue, random_state0)for train, test in spliter.split(x, y):print(分层交叉验证:, Counter(y[test]))if __name__ __main__:test() 1.5 留一法 留一法( Leave-One-Out简称LOO即每次抽取一个样本做为测试集。 from sklearn.model_selection import LeaveOneOut from sklearn.model_selection import LeavePOut from sklearn.datasets import load_iris from collections import Counterdef test01():# 1. 加载数据集x, y load_iris(return_X_yTrue)print(原始类别比例:, Counter(y))print(* * 40)# 2. 留一法spliter LeaveOneOut()for train, test in spliter.split(x, y):print(训练集:, len(train), 测试集:, len(test), test)print(* * 40)# 3. 留P法spliter LeavePOut(p3)for train, test in spliter.split(x, y):print(训练集:, len(train), 测试集:, len(test), test)if __name__ __main__:test01() 1.6 自助法 每次随机从D中抽出一个样本将其拷贝放入D然后再将该样本放回初始数据集D中使得该样本在下次采样时仍有可能被抽到 这个过程重复执行m次后我们就得到了包含m个样本的数据集D′这就是自助采样的结果。 import pandas as pdif __name__ __main__:# 1. 构造数据集data [[90, 2, 10, 40],[60, 4, 15, 45],[75, 3, 13, 46],[78, 2, 64, 22]]data pd.DataFrame(data)print(数据集:\n,data)print(* * 30)# 2. 产生训练集train data.sample(frac1, replaceTrue)print(训练集:\n, train)print(* * 30)# 3. 产生测试集test data.loc[data.index.difference(train.index)]print(测试集:\n, test) 2.分类算法的评估标准¶ 2.1 分类算法的评估¶ 如何评估分类算法 利用训练好的模型使用测试集的特征值进行预测 将预测结果和测试集的目标值比较计算预测正确的百分比 这个百分比就是准确率 accuracy 准确率越高说明模型效果越好 from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier #加载鸢尾花数据 X,y datasets.load_iris(return_X_y True) #训练集 测试集划分 X_train,X_test,y_train,y_test train_test_split(X,y,test_size0.2) # 创建KNN分类器对象 近邻数为6 knn_clf KNeighborsClassifier(n_neighbors6) #训练集训练模型 knn_clf.fit(X_train,y_train) #使用训练好的模型进行预测 y_predict knn_clf.predict(X_test) 计算准确率 sum(y_predicty_test)/y_test.shape[0]2.2 SKlearn中模型评估API介绍 sklearn封装了计算准确率的相关API sklearn.metrics包中的accuracy_score方法: 传入预测结果和测试集的标签 返回预测准去率分类模型对象的 score 方法传入测试集特征值测试集目标值 #计算准确率 from sklearn.metrics import accuracy_score #方式1 accuracy_score(y_test,y_predict) #方式2 knn_classifier.score(X_test,y_test) 3. 小结¶ 留出法每次从数据集中选择一部分作为测试集、一部分作为训练集交叉验证法将数据集等份为 N 份其中一部分做验证集其他做训练集留一法每次选择一个样本做验证集其他数据集做训练集自助法通过有放回的抽样产生训练集、验证集通过accuracy_score方法 或者分类模型对象的score方法可以计算分类模型的预测准确率用于模型评估
http://www.zqtcl.cn/news/933961/

相关文章:

  • 网站的域名做邮箱吗怎么建立一个网站让外国人浏览
  • 做建网站的工作一年赚几百万正安县网站seo优化排名
  • 简约手机网站源码深圳市龙华区民治街道
  • 买了个网站后怎么做三明网站优化
  • 表白网页制作免费网站制作西安网站快速优化
  • 如何破解网站后台管理做网站前端用什么软件好
  • 网站建设业务客户来源建德建设局官方网站
  • 网站设计 网站开发 优化网页设计一般尺寸
  • 好的版式设计网站网站建设商标属于哪个类别
  • 做淘宝素材网站哪个好用中国广告公司100强
  • 海拉尔网站建设平台wordpress的插件下载地址
  • 企业服务类网站常用python编程软件
  • 有哪些漫画做的好的网站西安seo建站
  • 在建设部网站如何查询注册信息网站开发项目的前端后端数据库
  • 自助建站网站seo公司wordpress 相册 免费模板
  • 搜索建站网在线crm管理系统
  • 旅游网站管理系统源码wordpress 禁止爬虫
  • 会员登录系统网站建设wordpress 二级页面
  • 北京网站建设公司代理记账代理公司注册
  • 网站建设需要提供的资料物流企业网站建设与管理规划书
  • .net 手机网站开发wordpress下载链接框
  • 省直部门门户网站建设网站视频点播怎么做
  • 广西网站建设-好发信息网做信息图的网站
  • 网站建设费用怎么算遵义市住房和城乡建设局官方网站
  • 网站部分网页乱码手把手教建设网站
  • 电商网站开发目的举报网站建设运行情况
  • 网站专业设计在线科技成都网站推广公司
  • 怎么建设幸运28网站seo工作是什么意思
  • 人工智能和网站开发如何做网站栏目
  • 设计有什么网站推荐ppt大全免费模板