当前位置：首页 > news >正文

深圳极速网站建设定制制作一个自适应网站

news 2025/11/14 22:10:39

深圳极速网站建设定制,制作一个自适应网站,十大安卓应用商店排名,深圳城乡和住房建设局网站首页Group k-fold解释和代码实现文章目录一、Group k-fold解释和代码实现是什么#xff1f;二、实验数据设置2.1 实验数据生成代码2.2 代码结果三、实验代码3.1 实验代码3.2 实验结果3.3 结果解释四、总结一、Group k-fold解释和代码实现是什么#xff1f; 0#xff0c;1… Group k-fold解释和代码实现文章目录一、Group k-fold解释和代码实现是什么二、实验数据设置2.1 实验数据生成代码2.2 代码结果三、实验代码3.1 实验代码3.2 实验结果3.3 结果解释四、总结一、Group k-fold解释和代码实现是什么 0123每一行表示测试集和训练集的划分的一种方式。 class表示类别的个数下图显示的是3类有些交叉验证根据类别的比例划分测试集和训练集例三。 group表示从不同的组采集到的样本颜色的个数表示组的个数有些时候我们关注在一组特定组上训练的模型是否能很好地泛化到看不见的组。举个例子解释“组”的意思我们有10个人我们想要希望训练集上所用的数据来自12345678测试集上的数据来自910也就是说我们不希望测试集上的数据和训练集上的数据来自同一个人如果来自同一个人的话训练集上的信息泄漏到测试集上了模型的泛化性能会降低测试结果会偏好。二、实验数据设置 2.1 实验数据生成代码 X, y np.arange(0,60).reshape((30,2)), np.hstack(([0] * 3, [1] * 9, [2] * 18)) groups np.hstack(([a] * 3, [b] * 1,[c] * 2, [d] * 4,[e] * 5, [f] * 3,[g] * 4,[h] * 5, [i] * 3)) print(数据, end ) for l in X:print(l, end ) print() print(标签, y) print(组别, groups)2.2 代码结果数据 [0 1] [2 3] [4 5] [6 7] [8 9] [10 11] [12 13] [14 15] [16 17] [18 19] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] [36 37] [38 39] [40 41] [42 43] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] 标签 [0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2] 组别 [a a a b c c d d d d e e e e e f f f g g g g h h h h h i i i]数据个数、标签个数30个类别个数3个分别是012比例是0.10.30.6和class每类对应和类别无关组别group:9个分别是a-i个数是312453453 三、实验代码 3.1 实验代码代码如下 # Group k-fold import numpy as np from sklearn.model_selection import GroupKFold# X [0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8, 8.8, 9, 10] # y [a, b, b, b, c, c, c, d, d, d] # groups [1, 1, 1, 2, 2, 2, 3, 3, 3, 3]X, y np.arange(0,60).reshape((30,2)), np.hstack(([0] * 3, [1] * 9, [2] * 18)) groups np.hstack(([a] * 3, [b] * 1,[c] * 2, [d] * 4,[e] * 5, [f] * 3,[g] * 4,[h] * 5, [i] * 3)) print(数据, end ) for l in X:print(l, end ) print() print(标签, y) print(组别, groups) gkf GroupKFold(n_splits3) for i,(train, test) in enumerate(gkf.split(X, y, groupsgroups)):print(Group k-fold 第%d折叠 % (i1))# print(train - {}.format(np.bincount(y[train])))print( 训练集索引%s % train)print( 训练集标签, y[train])print( 训练集组别标签, groups[train])print( 训练集数据, end )for l in X[train]:print(l, end )print()# print( 训练集数据, X[train])# print(test - {}.format(np.bincount(y[test])))print( 测试集索引%s % test)print( 测试集标签, y[test])print( 测试集组别标签, groups[test])print( 测试集数据, end )for l in X[test]:print(l, end )print()# print( 测试集数据, X[test])print()3.2 实验结果结果如下数据 [0 1] [2 3] [4 5] [6 7] [8 9] [10 11] [12 13] [14 15] [16 17] [18 19] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] [36 37] [38 39] [40 41] [42 43] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] 标签 [0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2] 组别 [a a a b c c d d d d e e e e e f f fg g g g h h h h h i i i] Group k-fold 第1折叠训练集索引[ 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21]训练集标签 [1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2]训练集组别标签 [b c c d d d d e e e e e f f f g g gg]训练集数据 [6 7] [8 9] [10 11] [12 13] [14 15] [16 17] [18 19] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] [36 37] [38 39] [40 41] [42 43] 测试集索引[ 0 1 2 22 23 24 25 26 27 28 29]测试集标签 [0 0 0 2 2 2 2 2 2 2 2]测试集组别标签 [a a a h h h h h i i i]测试集数据 [0 1] [2 3] [4 5] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] Group k-fold 第2折叠训练集索引[ 0 1 2 3 6 7 8 9 18 19 20 21 22 23 24 25 26 27 28 29]训练集标签 [0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2]训练集组别标签 [a a a b d d d d g g g g h h h h h ii i]训练集数据 [0 1] [2 3] [4 5] [6 7] [12 13] [14 15] [16 17] [18 19] [36 37] [38 39] [40 41] [42 43] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] 测试集索引[ 4 5 10 11 12 13 14 15 16 17]测试集标签 [1 1 1 1 2 2 2 2 2 2]测试集组别标签 [c c e e e e e f f f]测试集数据 [8 9] [10 11] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] Group k-fold 第3折叠训练集索引[ 0 1 2 4 5 10 11 12 13 14 15 16 17 22 23 24 25 26 27 28 29]训练集标签 [0 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2]训练集组别标签 [a a a c c e e e e e f f f h h h h hi i i]训练集数据 [0 1] [2 3] [4 5] [8 9] [10 11] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] 测试集索引[ 3 6 7 8 9 18 19 20 21]测试集标签 [1 1 1 1 1 2 2 2 2]测试集组别标签 [b d d d d g g g g]测试集数据 [6 7] [12 13] [14 15] [16 17] [18 19] [36 37] [38 39] [40 41] [42 43] 进程已结束退出代码 0 3.3 结果解释可以看到测试集标签里面有0但是训练集标签里没有0——这没办法做测试。可以看到数据集的划分和组别和折叠数3折有关但是和标签比例无关这一点不科学 Group k-fold 第1折叠训练集索引[ 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21]训练集标签 [1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2]训练集组别标签 [b c c d d d d e e e e e f f f g g g g]训练集数据 [6 7] [8 9] [10 11] [12 13] [14 15] [16 17] [18 19] [20 21] [22 23] [24 25] [26 27] [28 29] [30 31] [32 33] [34 35] [36 37] [38 39] [40 41] [42 43] 测试集索引[ 0 1 2 22 23 24 25 26 27 28 29]测试集标签 [0 0 0 2 2 2 2 2 2 2 2]测试集组别标签 [a a a h h h h h i i i]测试集数据 [0 1] [2 3] [4 5] [44 45] [46 47] [48 49] [50 51] [52 53] [54 55] [56 57] [58 59] 四、总结 Group k-fold:不考虑标签class和组group的影响。有时候测试集包含某一类的全部标签而训练集不包含该类的样本。也就是说没经过训练就要测试KFold 第1折叠。适用于每一组的数据类型都很全的时候。

查看全文

http://www.zqtcl.cn/news/948195/