当前位置: 首页 > news >正文

网站建设设途牛网站建设的基本特点

网站建设设,途牛网站建设的基本特点,wordpress清空,重庆市建设工程信息网安全从统计学视角看机器学习的训练与推理 目录 引言#xff1a;统计学与机器学习的奇妙缘分训练与推理#xff1a;你得先学会“看数据”再“用数据”最大似然估计#xff08;MLE#xff09;#xff1a;从直觉到数学证明 3.1 伯努利分布的MLE3.2 单变量高斯分布的MLE3.3 多元…从统计学视角看机器学习的训练与推理 目录 引言统计学与机器学习的奇妙缘分训练与推理你得先学会“看数据”再“用数据”最大似然估计MLE从直觉到数学证明 3.1 伯努利分布的MLE3.2 单变量高斯分布的MLE3.3 多元高斯与线性回归中的MLE 经验风险最小ERMMLE的自然推广其他估计方法矩估计、在线递归估计与指数加权移动平均总结与展望 引言统计学与机器学习的奇妙缘分 当我们谈论机器学习时其实是在说如何“训练”一个模型让它能够从数据中“推理”出规律。统计学作为这一过程的数学基石提供了严格的理论支持。从古老的贝叶斯推理到现代的频数推理每种方法都有其独特的数学证明和直观解释。本文就将带你走进这些理论的世界让你在大白话的解释中感受到数学公式背后的美妙逻辑 训练与推理你得先学会“看数据”再“用数据” 在机器学习中我们通常把整个过程分为两个阶段训练和推理。训练阶段我们使用大量数据来“教会”模型识别数据的内在规律而在推理阶段模型利用学到的知识对新数据进行预测。两者的区别在于 训练Training 模型根据已知数据调整自身参数就像你学习数学时不断做题、修正错误。这个过程本质上就是参数估计和优化问题。推理Inference 模型用训练中学到的参数去处理未知数据给出预测结果就像考试时你凭借平时的训练作答。 在统计学里我们往往用概率分布来刻画数据通过最大似然估计、贝叶斯方法等工具实现训练与推理的数学转化。 最大似然估计MLE从直觉到数学证明 最大似然估计是统计学中最核心的参数估计方法之一它的思想其实很直白——选择使得观测数据出现概率最大的参数值。下面我们通过几个经典例子来详细说明这一过程。 伯努利分布的MLE 假设你在做一个抛硬币实验每次实验的结果只有“正面”1和“反面”0。用$ \theta $表示出现正面的概率那么一组独立实验的似然函数为 L ( θ ) ∏ i 1 n θ x i ( 1 − θ ) 1 − x i L(\theta)\prod_{i1}^{n} \theta^{x_i}(1-\theta)^{1-x_i} L(θ)i1∏n​θxi​(1−θ)1−xi​ 为了方便求导我们取对数得到对数似然函数 ℓ ( θ ) ∑ i 1 n [ x i log ⁡ θ ( 1 − x i ) log ⁡ ( 1 − θ ) ] \ell(\theta)\sum_{i1}^{n} \Bigl[x_i\log\theta(1-x_i)\log(1-\theta)\Bigr] ℓ(θ)i1∑n​[xi​logθ(1−xi​)log(1−θ)] 接下来对 θ \theta θ求导并令导数为零我们可以得到 d ℓ ( θ ) d θ ∑ i 1 n x i θ − n − ∑ i 1 n x i 1 − θ 0 \frac{d\ell(\theta)}{d\theta}\frac{\sum_{i1}^{n}x_i}{\theta}-\frac{n-\sum_{i1}^{n}x_i}{1-\theta}0 dθdℓ(θ)​θ∑i1n​xi​​−1−θn−∑i1n​xi​​0 解得 θ 1 n ∑ i 1 n x i \theta\frac{1}{n}\sum_{i1}^{n}x_i θn1​i1∑n​xi​ 这告诉我们最佳的参数 θ \theta θ就是正面出现的频率。简单明了对吧 单变量高斯分布的MLE 对于连续变量最常用的分布之一就是高斯分布。设数据服从单变量高斯分布 p ( x ∣ μ , σ 2 ) 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x|\mu,\sigma^2)\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) p(x∣μ,σ2)2πσ2 ​1​exp(−2σ2(x−μ)2​) 对于独立数据集似然函数为 L ( μ , σ 2 ) ∏ i 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu,\sigma^2)\prod_{i1}^{n}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x_i-\mu)^2}{2\sigma^2}\Bigr) L(μ,σ2)i1∏n​2πσ2 ​1​exp(−2σ2(xi​−μ)2​) 取对数后得到 ℓ ( μ , σ 2 ) − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i 1 n ( x i − μ ) 2 \ell(\mu,\sigma^2)-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i1}^{n}(x_i-\mu)^2 ℓ(μ,σ2)−2n​log(2πσ2)−2σ21​i1∑n​(xi​−μ)2 分别对 μ \mu μ和 σ 2 \sigma^2 σ2求导并令导数为零我们能推导出 μ 1 n ∑ i 1 n x i \mu\frac{1}{n}\sum_{i1}^{n}x_i μn1​i1∑n​xi​ σ 2 1 n ∑ i 1 n ( x i − μ ) 2 \sigma^2\frac{1}{n}\sum_{i1}^{n}(x_i-\mu)^2 σ2n1​i1∑n​(xi​−μ)2 这两个公式直观地告诉我们数据的均值和方差正是高斯分布参数的最佳估计。 多元高斯与线性回归中的MLE 当数据是多维的我们用多元高斯分布来描述数据。设 x ∈ R d \mathbf{x}\in \mathbb{R}^d x∈Rd其概率密度函数为 p ( x ∣ μ , Σ ) 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(\mathbf{x}|\boldsymbol{\mu},\Sigma)\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\Bigl(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\Bigr) p(x∣μ,Σ)(2π)d/2∣Σ∣1/21​exp(−21​(x−μ)TΣ−1(x−μ)) 同样地对数似然函数为 ℓ ( μ , Σ ) − n 2 log ⁡ ( ( 2 π ) d ∣ Σ ∣ ) − 1 2 ∑ i 1 n ( x i − μ ) T Σ − 1 ( x i − μ ) \ell(\boldsymbol{\mu},\Sigma)-\frac{n}{2}\log((2\pi)^d|\Sigma|)-\frac{1}{2}\sum_{i1}^{n}(\mathbf{x}_i-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_i-\boldsymbol{\mu}) ℓ(μ,Σ)−2n​log((2π)d∣Σ∣)−21​i1∑n​(xi​−μ)TΣ−1(xi​−μ) 通过对 μ \boldsymbol{\mu} μ和 Σ \Sigma Σ求导可以得到最优估计公式。特别地在线性回归中我们假定目标变量 y y y与输入特征 x \mathbf{x} x之间满足 y x T β ϵ , ϵ ∼ N ( 0 , σ 2 ) y\mathbf{x}^T\boldsymbol{\beta}\epsilon,\quad \epsilon\sim N(0,\sigma^2) yxTβϵ,ϵ∼N(0,σ2) 在这种假设下最大似然估计的求解过程等价于最小二乘法最佳参数为 β ^ ( X T X ) − 1 X T y \hat{\boldsymbol{\beta}}(X^TX)^{-1}X^Ty β^​(XTX)−1XTy 同时噪声方差的估计为 σ ^ 2 1 n ∥ y − X β ^ ∥ 2 \hat{\sigma}^2\frac{1}{n}\|y-X\hat{\boldsymbol{\beta}}\|^2 σ^2n1​∥y−Xβ^​∥2 这些推导不仅告诉我们如何从数据中“学习”参数更为后续更复杂的模型训练提供了理论基础。 经验风险最小ERMMLE的自然推广 最大似然估计是一种非常特殊的经验风险最小ERM方法。当我们在训练一个模型时目标是最小化经验风险即 θ ^ arg ⁡ min ⁡ θ 1 n ∑ i 1 n L ( y i , f ( x i ; θ ) ) \hat{\theta}\arg\min_{\theta}\frac{1}{n}\sum_{i1}^{n}L(y_i,f(x_i;\theta)) θ^argθmin​n1​i1∑n​L(yi​,f(xi​;θ)) 这里 L L L是损失函数而 f ( x i ; θ ) f(x_i;\theta) f(xi​;θ)是模型预测值。如果我们选择 L L L为负对数似然那么ERM就完全等价于MLE。这说明经验风险最小化不仅适用于概率模型也适用于更广泛的模型训练问题是MLE思想的自然推广。 其他估计方法矩估计、在线递归估计与指数加权移动平均 除了MLE之外统计学中还有许多其他参数估计方法。下面我们用大白话和公式来解释几种常见的方法 矩估计法Method of Moments, MOM 矩估计法的基本思想是用样本矩来估计分布的理论矩。例如对于单变量高斯分布我们有 μ E [ x ] ≈ 1 n ∑ i 1 n x i \muE[x]\approx \frac{1}{n}\sum_{i1}^{n}x_i μE[x]≈n1​i1∑n​xi​ σ 2 E [ ( x − μ ) 2 ] ≈ 1 n ∑ i 1 n ( x i − μ ) 2 \sigma^2E[(x-\mu)^2]\approx \frac{1}{n}\sum_{i1}^{n}(x_i-\mu)^2 σ2E[(x−μ)2]≈n1​i1∑n​(xi​−μ)2 对于均匀分布 U ( a , b ) U(a,b) U(a,b)已知其理论均值和方差分别为 μ a b 2 , σ 2 ( b − a ) 2 12 \mu\frac{ab}{2},\quad \sigma^2\frac{(b-a)^2}{12} μ2ab​,σ212(b−a)2​ 利用样本均值和样本方差我们可以反推出分布的参数。这种方法简单直观适用于很多分布的参数估计。 在线递归估计与高斯分布均值的递归MLE 在实际应用中数据往往是不断到来的我们希望能够实时更新模型参数。在线递归估计便是一种非常实用的方法。例如对高斯分布均值的递归估计公式为 μ ^ t μ ^ t − 1 α ( x t − μ ^ t − 1 ) \hat{\mu}_t\hat{\mu}_{t-1}\alpha(x_t-\hat{\mu}_{t-1}) μ^​t​μ^​t−1​α(xt​−μ^​t−1​) 其中 α \alpha α是一个学习率参数控制新数据对估计值的影响。这其实和我们日常生活中的“不断修正预期”很像每次遇到新情况我们就会略微调整之前的看法。 指数加权移动平均Exponential Weighted Moving Average, EWMA 当我们希望对时间序列数据进行平滑处理时指数加权移动平均是一个好方法。其公式为 S t λ x t ( 1 − λ ) S t − 1 S_t\lambda x_t(1-\lambda)S_{t-1} St​λxt​(1−λ)St−1​ 其中 λ \lambda λ为平滑系数通常在 0 0 0到 1 1 1之间 S t S_t St​为当前的平滑值。简单来说每个时刻的估计值不仅考虑当前数据 x t x_t xt​还会参考之前的状态 S t − 1 S_{t-1} St−1​使得整体估计更平滑、鲁棒性更高。 总结与展望 通过上面的讨论我们可以看到统计学不仅为机器学习中的训练和推理提供了理论基础更在参数估计上展现出极大的魅力。无论是最大似然估计的严谨证明还是经验风险最小化的广义框架都为我们理解机器学习模型的本质提供了强有力的支持。同时矩估计、在线递归估计和指数加权移动平均等方法也展示了数据流时代实时更新模型参数的可能性。
http://www.zqtcl.cn/news/161822/

相关文章:

  • 免费视频网站制作泰州东方医院
  • 单位的网站怎样设计才美观手机开发者选项
  • 网站可以做软件检测吗重庆潼南网站建设价格
  • 忘记网站后台地址建设网站协议范本
  • 平面设计素材网站排行榜前十名程序员网站开发框架
  • 搭建一个网站需要多少钱搜搜
  • 做搜狗手机网站手工制作大全折纸
  • 万网站天眼查询个人信息
  • 一份优秀的网络推广方案名风seo软件
  • 自己建设一个网站步骤中文wordpress主题下载
  • 如何在中国建设银行网站转账成都网页设计培训学校哪家好
  • 青岛建设网站制作wordpress代码高亮显示
  • 品牌创意型网站建设仿 手机 网站模板html
  • 信息化建设期刊网站网络规划设计师 用途
  • 商城网站开发的完整流程图精灵网站建设
  • 网站开发技术描述asp网站建设下载
  • 十堰网站开发洛阳网站开发公司
  • 做盗版网站坂田网站建设推广公司
  • 怎么用织梦修改建设一个新的网站小程序无代码开发平台
  • 网站建设询价外贸网页制作公司哪家好
  • 网页设计与网站建设报告ckplayer整合WordPress
  • 厦门APP开发网站开发公司百度热搜榜单
  • 网站排名英文怎么说网页编辑器在线使用
  • 湖南做防水堵漏工程商网站网站建设编程软件
  • 网站编辑专题怎么做徐州建筑工程招投标网站
  • 英文网站建设合同招考网站开发
  • 网上商城网站 找什么做dede本地环境搭建网站
  • 网站开发遇到的问题及解决方法深圳市做网站有哪些公司
  • 自媒体网站 程序18款免费软件app下载推荐
  • 产业园门户网站建设方案瑞昌网络推广