当前位置: 首页 > news >正文

网站建设 项目要求教育品牌加盟网站建设

网站建设 项目要求,教育品牌加盟网站建设,搭建网站开发网站环境,php网站开发主要内容SHAP#xff08;五#xff09;#xff1a;使用 XGBoost 进行人口普查收入分类 本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。 它使用标准 UCI 成人收入数据集。 要下载此笔记本的副本#xff0c;请访问 github。 XGBoost 等梯度增强机方法对于具有…SHAP五使用 XGBoost 进行人口普查收入分类 本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。 它使用标准 UCI 成人收入数据集。 要下载此笔记本的副本请访问 github。 XGBoost 等梯度增强机方法对于具有多种形式的表格样式输入数据的此类预测问题来说是最先进的。 Tree SHAParXiv 论文允许精确计算树集成方法的 SHAP 值并已直接集成到 C XGBoost 代码库中。 这允许快速精确计算 SHAP 值无需采样也无需提供背景数据集因为背景是从树木的覆盖范围推断出来的。 在这里我们演示如何使用 SHAP 值来理解 XGBoost 模型预测。 import matplotlib.pylab as pl import numpy as np import xgboost from sklearn.model_selection import train_test_splitimport shap# print the JS visualization code to the notebook shap.initjs()1.加载数据集 X, y shap.datasets.adult() X_display, y_display shap.datasets.adult(displayTrue)# create a train/test split X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state7) d_train xgboost.DMatrix(X_train, labely_train) d_test xgboost.DMatrix(X_test, labely_test)2.训练模型 params {eta: 0.01,objective: binary:logistic,subsample: 0.5,base_score: np.mean(y_train),eval_metric: logloss, } model xgboost.train(params,d_train,5000,evals[(d_test, test)],verbose_eval100,early_stopping_rounds20, )[0] test-logloss:0.54663 [100] test-logloss:0.36373 [200] test-logloss:0.31793 [300] test-logloss:0.30061 [400] test-logloss:0.29207 [500] test-logloss:0.28678 [600] test-logloss:0.28381 [700] test-logloss:0.28181 [800] test-logloss:0.28064 [900] test-logloss:0.27992 [1000] test-logloss:0.27928 [1019] test-logloss:0.279353.经典特征归因 在这里我们尝试 XGBoost 附带的全局特征重要性计算。 请注意它们都是相互矛盾的这激励了 SHAP 值的使用因为它们具有一致性保证意味着它们将正确排序特征。 xgboost.plot_importance(model) pl.title(xgboost.plot_importance(model)) pl.show()​ ​ xgboost.plot_importance(model, importance_typecover) pl.title(xgboost.plot_importance(model, importance_typecover)) pl.show()​ ​ xgboost.plot_importance(model, importance_typegain) pl.title(xgboost.plot_importance(model, importance_typegain)) pl.show()​ ​ 4,解释预测 在这里我们使用集成到 XGBoost 中的 Tree SHAP 实现来解释整个数据集32561 个样本。 # this takes a minute or two since we are explaining over 30 thousand samples in a model with over a thousand trees explainer shap.TreeExplainer(model) shap_values explainer.shap_values(X)4.1 可视化单个预测 请注意我们使用“显示值”数据框因此我们得到了漂亮的字符串而不是类别代码。 shap.force_plot(explainer.expected_value, shap_values[0, :], X_display.iloc[0, :])4.2 将许多预测可视化 为了让浏览器满意我们只可视化 1,000 个人。 shap.force_plot(explainer.expected_value, shap_values[:1000, :], X_display.iloc[:1000, :] )5.平均重要性条形图 这取整个数据集中 SHAP 值大小的平均值并将其绘制为简单的条形图。 shap.summary_plot(shap_values, X_display, plot_typebar)​ ​ 6.SHAP 概要图 我们没有使用典型的特征重要性条形图而是使用每个特征的 SHAP 值的密度散点图来确定每个特征对验证数据集中个体的模型输出有多大影响。 特征按所有样本的 SHAP 值大小之和排序。 有趣的是关系特征比资本收益特征具有更大的总体模型影响但对于那些资本收益重要的样本它比年龄具有更大的影响。 换句话说资本收益对少数预测的影响较大而年龄对所有预测的影响较小。 请注意当散点不适合在线时它们会堆积起来以显示密度每个点的颜色代表该个体的特征值。 shap.summary_plot(shap_values, X)​ ​ 7.SHAP 相关图 SHAP 依赖图显示单个特征对整个数据集的影响。 他们绘制了多个样本中某个特征的值与该特征的 SHA 值的关系图。 SHAP 依赖图与部分依赖图类似但考虑了特征中存在的交互效应并且仅在数据支持的输入空间区域中定义。 单个特征值处的 SHAP 值的垂直分散是由交互效应驱动的并且选择另一个特征进行着色以突出可能的交互。 for name in X_train.columns:shap.dependence_plot(name, shap_values, X, display_featuresX_display)​ ​ ) 8.简单的监督聚类 按 shap_values 对人们进行聚类会导致与手头的预测任务相关的组在本例中是他们的收入潜力。 from sklearn.decomposition import PCA from sklearn.manifold import TSNEshap_pca50 PCA(n_components12).fit_transform(shap_values[:1000, :]) shap_embedded TSNE(n_components2, perplexity50).fit_transform(shap_values[:1000, :])from matplotlib.colors import LinearSegmentedColormapcdict1 {red: ((0.0, 0.11764705882352941, 0.11764705882352941),(1.0, 0.9607843137254902, 0.9607843137254902),),green: ((0.0, 0.5333333333333333, 0.5333333333333333),(1.0, 0.15294117647058825, 0.15294117647058825),),blue: ((0.0, 0.8980392156862745, 0.8980392156862745),(1.0, 0.3411764705882353, 0.3411764705882353),),alpha: ((0.0, 1, 1), (0.5, 1, 1), (1.0, 1, 1)), } # #1E88E5 - #ff0052 red_blue_solid LinearSegmentedColormap(RedBlue, cdict1)f pl.figure(figsize(5, 5)) pl.scatter(shap_embedded[:, 0],shap_embedded[:, 1],cshap_values[:1000, :].sum(1).astype(np.float64),linewidth0,alpha1.0,cmapred_blue_solid, ) cb pl.colorbar(labelLog odds of making $50K, aspect40, orientationhorizontal) cb.set_alpha(1) cb.outline.set_linewidth(0) cb.ax.tick_params(x, length0) cb.ax.xaxis.set_label_position(top) pl.gca().axis(off) pl.show()​ ​ for feature in [Relationship, Capital Gain, Capital Loss]:f pl.figure(figsize(5, 5))pl.scatter(shap_embedded[:, 0],shap_embedded[:, 1],cX[feature].values[:1000].astype(np.float64),linewidth0,alpha1.0,cmapred_blue_solid,)cb pl.colorbar(labelfeature, aspect40, orientationhorizontal)cb.set_alpha(1)cb.outline.set_linewidth(0)cb.ax.tick_params(x, length0)cb.ax.xaxis.set_label_position(top)pl.gca().axis(off)pl.show()​ ​ 训练每棵树只有两个叶子的模型因此特征之间没有交互项 强制模型没有交互项意味着某个特征对结果的影响不依赖于任何其他特征的值。 这反映在下面的 SHAP 相关图中因为没有垂直扩展。 垂直分布反映了一个特征的单个值可能对模型输出产生不同的影响具体取决于个体呈现的其他特征的上下文。 然而对于没有交互项的模型无论个体可能具有哪些其他属性特征总是具有相同的影响。 与传统的部分相关图相比SHAP 相关图的优点之一是能够区分具有交互项和不具有交互项的模型。 换句话说SHAP 相关图通过给定特征值处散点图的垂直方差给出了交互项大小的概念。 # train final model on the full data set params {eta: 0.05,max_depth: 1,objective: binary:logistic,subsample: 0.5,base_score: np.mean(y_train),eval_metric: logloss, } model_ind xgboost.train(params,d_train,5000,evals[(d_test, test)],verbose_eval100,early_stopping_rounds20, )[0] test-logloss:0.54113 [100] test-logloss:0.35499 [200] test-logloss:0.32848 [300] test-logloss:0.31901 [400] test-logloss:0.31331 [500] test-logloss:0.30930 [600] test-logloss:0.30619 [700] test-logloss:0.30371 [800] test-logloss:0.30184 [900] test-logloss:0.30035 [1000] test-logloss:0.29913 [1100] test-logloss:0.29796 [1200] test-logloss:0.29695 [1300] test-logloss:0.29606 [1400] test-logloss:0.29525 [1500] test-logloss:0.29471 [1565] test-logloss:0.29439shap_values_ind shap.TreeExplainer(model_ind).shap_values(X)请注意下面的交互颜色条对于该模型来说没有意义因为它没有交互。 for name in X_train.columns:shap.dependence_plot(name, shap_values_ind, X, display_featuresX_display)invalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divideinvalid value encountered in divide invalid value encountered in divide
http://www.zqtcl.cn/news/636371/

相关文章:

  • 张掖北京网站建设新闻事件
  • 济南网站建设(力选聚搜网络)wordpress文章中写代码
  • 网站后台忘记密码买购网十大品牌网
  • 360免费建站网页链接石家庄建设局网站怎么打不开
  • 东莞网站建做俄罗斯外贸的网站
  • 基于vue.js旅游网站开发网络营销的主要形式有建设网站
  • 医院网站建设要素国外电商网站
  • 甘肃两学一做网站可以制作h5的网站
  • 微信公众号手机网站开发wordpress 集赞系统
  • 怎么做会员积分网站免费ppt模板下载有哪些
  • 六安网站开发如何用微信小程序做网站
  • 华为云自助建站好不好seo技巧分享
  • 做淘宝客的网站wordpress+附件丢失
  • 苏州市城乡建设局网站首页做动漫网站的素材
  • 济南网站建设系统介绍服务网站开发费属于研发支出吗
  • 网站建设方案进行工期安排Wix做的网站在国内打不开
  • 网站后台后缀名qq免费申请账号
  • seo网站优化代码静态网站可以做哪些
  • 网页素材及网站架构制作个人单页网站模板
  • 微小店网站建设价格建设网站设备预算
  • 电子商城网站开发公司泰州网络营销
  • 网站建设公司利润分配一些常用的网站
  • 鄂尔多斯做网站的公司北京企业网站设计报价
  • 南宁关键词网站排名wordpress付免签插件
  • 龙岩网站定制电子政务与网站建设方面
  • 东莞网站制作十强英语培训机构网站建设策划书
  • 住房和城乡建设部网站加装电梯苏州外发加工网
  • 企业网站管理系统带授权广州seo报价
  • 建设门户网站的意义旅游电商网站建设方案模板
  • 网站做动态图片不显示某购物网站开发项目