当前位置: 首页 > news >正文

wordpress悬浮输入框宁波超值关键词优化

wordpress悬浮输入框,宁波超值关键词优化,建设网站费用记入什么科目,旅游网站建设的功能正态分布 - 计算 Z-Score 的 无偏估计 flyfish Z-Score公式与计算步骤 1 公式#xff08;样本Z-Score#xff09; 实际应用中#xff0c;我们几乎不知道“总体均值/标准差”#xff0c;所以常用样本数据计算#xff1a; zixi−xˉsz_i \frac{x_i - \bar{x}}{s}zi​sxi​−…正态分布 - 计算 Z-Score 的 无偏估计 flyfish Z-Score公式与计算步骤 1 公式样本Z-Score 实际应用中我们几乎不知道“总体均值/标准差”所以常用样本数据计算 zixi−xˉsz_i \frac{x_i - \bar{x}}{s}zi​sxi​−xˉ​ xix_ixi​某个具体的数据点如数学成绩80分 xˉ\bar{x}xˉ样本均值如全班数学平均分70分 sss样本标准差如全班数学成绩的标准差5分。 2 标准差sss的补充公式 标准差衡量“数据的离散程度”计算步骤 算每个数据与均值的差xi−xˉx_i - \bar{x}xi​−xˉ差的平方(xi−xˉ)2(x_i - \bar{x})^2(xi​−xˉ)2平方和的均值方差1n−1∑i1n(xi−xˉ)2\frac{1}{n-1}\sum_{i1}^n (x_i - \bar{x})^2n−11​∑i1n​(xi​−xˉ)2分母用n−1n-1n−1是“无偏估计”方差开根号s方差s \sqrt{\text{方差}}s方差​。 3 计算步骤 上面的“数学考试”例子假设全班5个同学的数学成绩为[65, 70, 75, 80, 85]计算80分对应的Z-Score 算样本均值xˉ\bar{x}xˉxˉ(6570758085)/575\bar{x} (6570758085)/5 75xˉ(6570758085)/575算样本标准差sss 差65−75−1065-75-1065−75−1070−75−570-75-570−75−575−75075-75075−75080−75580-75580−75585−751085-751085−7510差的平方100,25,0,25,100100, 25, 0, 25, 100100,25,0,25,100方差(10025025100)/(5−1)250/462.5(10025025100)/(5-1) 250/4 62.5(10025025100)/(5−1)250/462.5标准差s62.5≈7.91s \sqrt{62.5} ≈ 7.91s62.5​≈7.91 算Z-Scorez(80−75)/7.91≈0.63z (80-75)/7.91 ≈ 0.63z(80−75)/7.91≈0.63。 数学成绩比全班均值高0.63个标准差处于中等偏上水平。 无偏估计为什么样本方差的分母用 n-1 而不是 n 在计算Z-Score时我们使用样本数据来估计总体的情况而样本标准差 s 的公式中方差的部分是 1n−1∑i1n(xi−xˉ)2\frac{1}{n-1} \sum_{i1}^n (x_i - \bar{x})^2n−11​∑i1n​(xi​−xˉ)2。这里的分母用 n-1而不是 n是为了实现“无偏估计”unbiased estimation。 1. 什么是“估计”偏估计 vs. 无偏估计 首先我们要明白在现实中我们很少能拿到“总体”population的所有数据。比如全班数学成绩的“总体”可能是全国所有学生的成绩但我们只能拿到一个“样本”sample如你班上的5个同学的成绩。我们用样本数据来“估计”总体的均值、方差等参数。 估计器estimator就是一个公式或方法用来从样本推算总体参数。比如样本均值 xˉ\bar{x}xˉ 是总体均值 μ 的估计器样本方差是总体方差 σ² 的估计器。偏估计biased estimator如果这个估计器在多次重复采样后平均值不等于真实的总体参数就叫有偏biased。简单说它系统性地高估或低估了真实值。无偏估计unbiased estimator多次重复采样后估计器的平均值等于真实的总体参数。它更“公平”、更可靠尤其当样本量小的时候。 在方差的计算中 如果用分母 n即样本方差 1n∑i1n(xi−xˉ)2\frac{1}{n} \sum_{i1}^n (x_i - \bar{x})^2n1​∑i1n​(xi​−xˉ)2这是一个有偏估计它会低估总体方差平均来说算出来的方差比真实的小。如果用分母 n-1即样本方差 1n−1∑i1n(xi−xˉ)2\frac{1}{n-1} \sum_{i1}^n (x_i - \bar{x})^2n−11​∑i1n​(xi​−xˉ)2这是一个无偏估计它在平均意义上等于总体方差。 为什么会这样因为用样本均值 xˉ\bar{x}xˉ而不是真实的总体均值 μ来计算偏差会让数据看起来“更集中”离散度更小从而低估方差。为了补偿这个“收缩效应”我们用 n-1 来“放大”一点分母让估计更接近真实。 2. 为什么用 n 会低估直观解释和数学原因 直观解释 想象一下总体是一个大群体数据很分散。但当你抽样时样本数据往往更“像”样本均值 xˉ\bar{x}xˉ因为 xˉ\bar{x}xˉ 就是从这些数据算出来的。所以计算 ∑(xi−xˉ)2\sum (x_i - \bar{x})^2∑(xi​−xˉ)2 时偏差平方和会比用真实 μ 小数据显得更紧凑。这就好比用“自家尺子”量自家东西总会量得偏小。 如果样本量 n 很大比如成千上万这个偏差很小用 n 或 n-1 差不多。但如果 n 小比如例子 n5偏差明显。用 n 会显著低估方差。 为了修正我们减掉1n-1相当于“损失了一个自由度”degrees of freedom。为什么是1因为计算 xˉ\bar{x}xˉ 时已经用掉了1个“信息”均值固定了数据的平均位置剩下 n-1 个独立偏差。 数学原因简单证明 总体方差 σ² 1N∑i1N(xi−μ)2\frac{1}{N} \sum_{i1}^N (x_i - \mu)^2N1​∑i1N​(xi​−μ)2N 是总体大小通常很大。 现在从总体中随机抽取 n 个样本计算样本方差。如果用分母 n 的有偏方差记为 s²_bias 1n∑i1n(xi−xˉ)2\frac{1}{n} \sum_{i1}^n (x_i - \bar{x})^2n1​∑i1n​(xi​−xˉ)2。数学上可以证明期望值 E[s²_bias] n−1nσ2\frac{n-1}{n} \sigma^2nn−1​σ2 σ²低估了 1n\frac{1}{n}n1​ 的比例。如果用分母 n-1 的无偏方差记为 s²_unbias 1n−1∑i1n(xi−xˉ)2\frac{1}{n-1} \sum_{i1}^n (x_i - \bar{x})^2n−11​∑i1n​(xi​−xˉ)2 nn−1sb2ias\frac{n}{n-1} s²_biasn−1n​sb2​ias。期望值 E[s²_unbias] nn−1×n−1nσ2σ2\frac{n}{n-1} \times \frac{n-1}{n} \sigma^2 \sigma^2n−1n​×nn−1​σ2σ2正好等于真实方差无偏。这个证明基于统计学的“期望值”计算涉及χ²分布等但核心是n-1 补偿了使用 xˉ\bar{x}xˉ 代替 μ 带来的偏差。历史上这是由德国数学家弗里德里希·贝塞尔Friedrich Bessel在19世纪提出的修正因此也叫“Bessel’s correction”。 3. 比较n vs. n-1 的区别 数学成绩样本[65, 70, 75, 80, 85]n5均值 xˉ75\bar{x}75xˉ75偏差平方和 100 25 0 25 100 250。用 n5有偏 方差 250 / 5 50标准差 s √50 ≈ 7.07Z-Score for 80: (80 - 75) / 7.07 ≈ 0.71用 n-14无偏 方差 250 / 4 62.5标准差 s √62.5 ≈ 7.91Z-Score for 80: (80 - 75) / 7.91 ≈ 0.63区别用 n 的Z-Score更大0.71 vs. 0.63因为标准差更小显得成绩“更突出”。但这低估了真实的离散度。如果这个样本代表一个更大的班级用 n 会让Z-Score“夸大”你的位置而 n-1 更保守、更接近真实总体。 假设真实总体方差是62.5只是假设多次抽样平均下来用 n-1 的方差会接近62.5而用 n 的会接近50低估20%。 4. 在Z-Score计算中的重要性和应用注意 Z-Score 的本质是“标准化”数据让不同分布的数据可比比如比较数学和语文成绩。公式 z (x - 均值) / 标准差其中标准差是“尺度”如果标准差低估了Z-Score就会高估偏差导致解读错误。 为什么在Z-Score中必须用 n-1 因为Z-Score通常用于推断总体如你的成绩在全校/全国的位置我们希望估计无偏。统计软件如Excel的STDEV.S、Python的numpy.std(ddof1)默认用 n-1就是这个原因。如果知道总体均值 μ 和 σ罕见用总体公式z (x - μ) / σ分母就是 N无需修正。但实际中几乎总是用样本所以 n-1 是标准实践。 什么时候可以忽略 n 很大时n 30n 和 n-1 区别小可以近似用 n。纯描述样本不推断总体时用 n 也行叫“描述性标准差”。 用 n-1 是为了让样本方差“公平”地代表总体避免系统低估。这在小样本中特别重要能让Z-Score更准确、更可靠两种计算方式的分布对比 从已知总体方差25的正态分布中重复抽样样本量 n5 红色分布使用 n 作为分母计算的样本方差其平均值明显低于真实总体方差25表现出系统性低估 蓝色分布使用 n-1 作为分母计算的样本方差其平均值非常接近真实总体方差25实现了无偏估计 黑色虚线真实的总体方差值清晰显示 n-1 的估计更接近真实值不同样本量下的偏差对比 纵轴表示 “平均偏差”估计值减去真实值越接近 0 越好 红色线使用 n 作为分母时始终存在负偏差低估样本量越小偏差越大 蓝色线使用 n-1 作为分母时偏差接近 0基本无偏 规律随着样本量增大3, 5, 10, 20, 50, 100, 500两种方法的差异逐渐减小当 n 很大时如 500n 和 n-1 的结果几乎相同 import numpy as np import matplotlib.pyplot as plt import seaborn as sns# 设置中文字体 plt.rcParams[font.family] [SimHei] plt.rcParams[axes.unicode_minus] False # 解决负号显示问题# 实验参数设置 np.random.seed(42) # 设置随机种子保证结果可重复 population_mean 50 # 总体均值 population_variance 25 # 总体方差已知 population_std np.sqrt(population_variance) # 总体标准差 sample_size 5 # 样本量小样本更能体现差异 num_simulations 10000 # 模拟次数# 存储每次模拟的两种方差结果 variances_n [] # 用n作为分母的方差 variances_n_minus_1 [] # 用n-1作为分母的方差# 进行多次抽样模拟 for _ in range(num_simulations):# 从已知总体中随机抽取样本sample np.random.normal(population_mean, population_std, sample_size)sample_mean np.mean(sample)# 计算偏差平方和squared_deviations np.sum((sample - sample_mean) **2)# 两种方式计算方差var_n squared_deviations / sample_sizevar_n_minus_1 squared_deviations / (sample_size - 1)# 存储结果variances_n.append(var_n)variances_n_minus_1.append(var_n_minus_1)# 计算两种方法的平均值 mean_var_n np.mean(variances_n) mean_var_n_minus_1 np.mean(variances_n_minus_1)# 创建可视化图形 plt.figure(figsize(12, 6))# 绘制两种方差估计的分布直方图 sns.histplot(variances_n, bins50, color#FF6B6B, alpha0.6, labelf分母 n (平均值 {mean_var_n:.2f})) sns.histplot(variances_n_minus_1, bins50, color#4ECDC4, alpha0.6, labelf分母 n-1 (平均值 {mean_var_n_minus_1:.2f}))# 绘制真实总体方差的参考线 plt.axvline(xpopulation_variance, colorblack, linestyle--, linewidth2, labelf真实总体方差 {population_variance})# 添加标签和标题 plt.title(fn {sample_size} 时两种方差计算方式的分布对比, fontsize15) plt.xlabel(样本方差值, fontsize12) plt.ylabel(频率, fontsize12) plt.xlim(0, population_variance * 2) # 限制x轴范围使对比更清晰 plt.legend(fontsize11) plt.grid(alpha0.3)plt.tight_layout() plt.show()# 不同样本量下的偏差对比 sample_sizes [3, 5, 10, 20, 50, 100, 500] # 测试不同样本量 #sample_sizes [500] bias_n [] bias_n_minus_1 []for n in sample_sizes:# 多次模拟sim_var_n []sim_var_n1 []for _ in range(1000):sample np.random.normal(population_mean, population_std, n)sample_mean np.mean(sample)sq_dev np.sum((sample - sample_mean)** 2)sim_var_n.append(sq_dev / n)sim_var_n1.append(sq_dev / (n - 1))# 计算偏差估计值 - 真实值bias_n.append(np.mean(sim_var_n) - population_variance)bias_n_minus_1.append(np.mean(sim_var_n1) - population_variance)# 绘制不同样本量下的偏差图 plt.figure(figsize(10, 5)) plt.plot(sample_sizes, bias_n, ro-, label分母 n 的偏差) plt.plot(sample_sizes, bias_n_minus_1, bo-, label分母 n-1 的偏差) plt.axhline(y0, colorgray, linestyle--) # 零偏差参考线plt.title(不同样本量下两种方差计算方式的偏差, fontsize14) plt.xlabel(样本量 n, fontsize12) plt.ylabel(平均偏差估计值 - 真实值, fontsize12) plt.xscale(log) # 对数刻度便于展示不同量级的样本量 plt.legend() plt.grid(alpha0.3) plt.tight_layout() plt.show()
http://www.zqtcl.cn/news/438556/

相关文章:

  • 贵卅省住房和城乡建设厅网站怎么快速仿wordpress站
  • 苏州网站建设排名clef wordpress
  • 罗定建设局网站汽车装饰网站源码
  • 网站用什么切版商城网站怎么建
  • 设计网站公司多少钱wordpress获取所有标签
  • 怎么看一个网站是哪个公司做的电子商务网站设计与规划
  • 邯郸哪里做网站优化网站建设如何排版
  • 济南网站建设设计制作公司找人做网站价格
  • 阿里网站年费续费怎么做分录大型的网站开发
  • 中山做网站费用广西壮族自治区住房和建设厅网站
  • vs2015做网站如何添加控件建设网站计划 ppt
  • 简述网站设计流程贵阳小程序开发软件公司
  • 营销网站建设的原则设计网站页面要注意什么
  • 上海怎么做网站国外网站 设计
  • 开发公司土地评估费计入土地价款优化搜狐的培训
  • 网站建设佰首选金手指三360怎么免费建网站
  • 网站万能密码修复苏州市建设中心网站
  • 如何搭建php网站网站制作的前期主要是做好什么工作
  • 站酷设计网站官网站不能正常显示出现后台代码
  • 网站域名改版微信公众号免费开通
  • 代网站建设如何对网站进行爬虫
  • 做公司+网站建设价格低网站两边广告代码
  • 服务器上怎做网站提升网页优化排名
  • 上海网站推广模板景德镇网站开发
  • 艺术风格网站成都软件开发公司排行榜
  • 搭建个人网站赚钱网站开发应该注意什么
  • 医药招商网站建设做招聘网站都需要什么手续
  • 通州网站建设电话外贸订单网站推广
  • 余江县建设局网站福州外包加工网
  • 为网站网站做推广加强网络安全建设