当前位置: 首页 > news >正文

手机网站后台模板外贸网络营销培训

手机网站后台模板,外贸网络营销培训,做网站必须购买空间吗,seoyoonKS检验及其在机器学习中的应用什么是KS检验Kolmogorov–Smirnov 检验#xff0c;简称KS检验#xff0c;是统计学中的一种非参数假设检验#xff0c;用来检测单样本是否服从某一分布#xff0c;或者两样本是否服从相同分布。在单样本的情况下#xff0c;我们想检验这个样本… KS检验及其在机器学习中的应用什么是KS检验Kolmogorov–Smirnov 检验简称KS检验是统计学中的一种非参数假设检验用来检测单样本是否服从某一分布或者两样本是否服从相同分布。在单样本的情况下我们想检验这个样本是否服从某一分布函数记是该样本的经验分布函数。我们构造KS统计量如下图经验分布函数与目标分布的累积分布函数的最大差值就是我们要求的KS统计量95%置信度的KS统计量的临界值由给出如果我们根据样本得到的KS统计量的值小于那么我们就接收原假设否则拒绝原假设。两样本的KS检验用同样的思想我们可以检验「两个样本是否服从同一分布」此时KS统计量为两样本的经验分布函数的最大差值这时候95%置信度的临界值为「KS 检验只能检验连续型的分布」import numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import kstest, ks_2sampfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegression如何用Python进行KS检验Python的scipy.stats模块提供了与KS检验有关的函数单样本检验有函数scipy.stats.kstest(rvs, cdf, args(), N20, alternativetwo-sided, modeapprox)最重要的两个参数rvs : str, array or callableIf a string, it should be the name of a distribution in scipy.stats.If an array, it should be a 1-D array of observations of randomvariables.If a callable, it should be a function to generate random variables;it is required to have a keyword argument size.cdf : str or callableIf a string, it should be the name of a distribution in scipy.stats.If rvs is a string then cdf can be False or the same as rvs.If a callable, that callable is used to calculate the cdf.Returns: statistic : float KS test statistic, either D, D or D-. pvalue : float One-tailed or two-tailed p-value.x  np.random.randn(100)kstest(x, norm)KstestResult(statistic0.14648390717722642, pvalue0.024536061749414313)生成100个标准正态分布随机数得到KS统计量的值为因此我们认为该样本服从正态分布。x  np.random.exponential(size100)kstest(x, norm)KstestResult(statistic0.505410956721057, pvalue3.4967106846361894e-24)kstest(x, expon)KstestResult(statistic0.09854002120537766, pvalue0.2685899206780503)生成100个指数分布随机数KS检验拒绝它们服从正态分布的假设接收了它们服从指数分布的假设。两样本检验有函数scipy.stats.ks_2samp(data1, data2, alternativetwo-sided, modeauto)参数data1, data2 : sequence of 1-D ndarraystwo arrays of sample observations assumed to be drawn from a continuousdistribution, sample sizes can be differentReturnsstatistic : floatKS statisticpvalue : floattwo-tailed p-valuex  np.random.randn(100)y  np.random.randn(50)ks_2samp(x, y)Ks_2sampResult(statistic0.11, pvalue0.804177768619009)因此我们接收原假设认为x,y服从相同分布。x  np.random.randn(100)y  np.random.exponential(size50)ks_2samp(x, y)Ks_2sampResult(statistic0.59, pvalue3.444644569583488e-11)拒绝x,y服从相同分布的假设。KS检验在机器学习中的应用应用一判断特征在训练集和测试集上分布是不是相同特征迁移是在机器学习任务中经常碰到的情况「线上数据的分布跟离线数据的分布情况不一致」这就导致模型的泛化能力不足。而我们去判断两份数据的分布是不是相同的一个工具就是KS检验X, y  datasets.make_classification(n_samples10000, n_features5,                                    n_informative2, n_redundant2, random_state2020)X_train, X_test, y_train, y_test  \    train_test_split(X, y, test_size0.4, random_state2020)for i in range(5):    print(ks_2samp(X_train[:, i], X_test[:, i]))Ks_2sampResult(statistic0.013083333333333334, pvalue1.0)Ks_2sampResult(statistic0.013083333333333334, pvalue1.0)Ks_2sampResult(statistic0.008916666666666666, pvalue1.0)Ks_2sampResult(statistic0.012916666666666667, pvalue1.0)Ks_2sampResult(statistic0.013583333333333333, pvalue1.0)随机生成了一个有5个特征包含10000组数据的数据集划分训练集和测试集后对比每个特征上测试集和训练集的分布。这里每一个特征都通过了KS检验(这里显然是可以通过的hhh)应用二判断二分类模型能否将正负样本很好的分开在信用评分领域会使用KS统计量衡量二分类模型分类正负样本的能力。在测试集上将模型对y_true1的样本的输出概率值作为data1对y_true0的样本的输出概率值作为data2计算两个分布的KS统计量。我们用 lr 拿上面的数据做个例子。画出测试集上正负样本的预测概率值的分布情况。lr  LogisticRegression(solverliblinear)lr.fit(X_train, y_train)LogisticRegression(C1.0, class_weightNone, dualFalse, fit_interceptTrue, intercept_scaling1, l1_ratioNone, max_iter100, multi_classauto, n_jobsNone, penaltyl2, random_stateNone, solverliblinear, tol0.0001, verbose0, warm_startFalse)data1  np.sort(lr.predict_proba(X_test[y_test1])[:, 1])data2  np.sort(lr.predict_proba(X_test[y_test1])[:, 0])plt.figure(figsize(8, 4))last, i  0, 0while i     plt.plot([last, data1[i]], [i/len(data1), i/len(data1)], k)    if i         last  data1[i]    i  1last, i  0, 0while i     plt.plot([last, data2[i]], [i/len(data2), i/len(data2)], r)    if i         last  data2[i]    i  1这两条曲线的最大差值就是我们要求的KS统计量。这个差值越大说明模型对这个正负样本的区别能力越强。ks_2samp(data1, data2)Ks_2sampResult(statistic0.9219219219219219, pvalue0.0)这里KS统计量甚至超过了0.9一般来说KS统计量超过0.6就说明模型的分类能力比较强了。赞 赏 作 者推荐阅读2020Python招聘内推渠道开启啦老司机教你5分钟读懂Python装饰器用Python实现粒子群算法抄底美股用Python分析美股实际收益率▼点击成为社区会员   喜欢就点个在看吧
http://www.zqtcl.cn/news/671935/

相关文章:

  • 网站制作要学哪些北京信管局 网站备案
  • 百度新闻源网站有哪些wordpress怎么配置七牛cdn加速
  • 山东城乡住房建设厅网站wordpress 购物网站主题
  • 石家庄制作网站查网站流量查询工具
  • 信誉好的永州网站建设静态网站的短处
  • wordpress主题汉化软件河南网站优化哪家好
  • 关于水果的网站建设前端页面设计
  • 随州网站推广哪家好河南网站seo营销多少费用
  • 重庆网站优化排名软件方案谁能做网站开发
  • 河南官网网站建设报价app网站制作多少钱
  • 做网站页面一般用什么软件网站建设项目说明书
  • 做国外lead应该做什么网站网站运营报告
  • 建立一个自己的网站需要多少钱我的世界查找建筑网站
  • 广州网站建设互广做响应式网站设计图是多大的
  • 网站建设 运维 管理包括建大网站首页
  • 快手做任务网站python基础教程作者
  • 网站添加 百度商桥企信网查询
  • 用易语言可以做网站吗西安外贸网站开发
  • 常用网站推广方法电商便捷的网站建设平台
  • 做网站免费的app是什么免费公司注册
  • 做平面素材比较好的网站网络系统设计的步骤
  • 西安网站建设 乐云seo全国旅游景点网站开源
  • 中山快速做网站价格网站投稿源码
  • 免费网站建设教程青岛网站建设收费哪个平台好
  • 关于网站建设外文文献金蝶软件多少钱一套
  • 有高并发量门户网站开发经验国家商标局官网查询
  • 正规的招聘网站可信网站标志
  • 网站举报能不能查到举报人佛山企业网站建设电话
  • 家居网站建设如何现在去长沙会被隔离吗
  • 电子烟网站建设win2008iis7配置网站