当前位置: 首页 > news >正文

网站建设有什么系统亦庄网站设计

网站建设有什么系统,亦庄网站设计,电玩网站开发,做网站的用户需求分析深入理解L1、L2正则化 转自#xff1a;【面试看这篇就够了】L1、L2正则化理解 一、概述 正则化#xff08;Regularization#xff09;是机器学习中一种常用的技术#xff0c;其主要目的是控制模型复杂度#xff0c;减小过拟合。正则化技术已经成为模型训练中的常用技术【面试看这篇就够了】L1、L2正则化理解 一、概述 正则化Regularization是机器学习中一种常用的技术其主要目的是控制模型复杂度减小过拟合。正则化技术已经成为模型训练中的常用技术在面试中经常会遇到面试官问此题。由于正则化已经成为一种标准的技术日常使用中往往都是直接用而没有特别了解背后的原理。而如果面试中回答得不够好或者没回答清楚就会非常影响面试结果。因此非常有必要将此题弄清楚。本文便是秉承着这样的一种目的给大家详尽而又彻底地讲解这个问题。遇到面试的时候看这篇文章就够用了。 最基本的正则化方法是在原目标代价函数 中添加惩罚项对复杂度高的模型进行“惩罚”。其数学表达形式为 J~(ω;X,y)J(ω;X,y)αΩ(ω)\widetilde{J}(\omega;X,y){J}(\omega;X,y)\alpha\Omega(\omega) J(ω;X,y)J(ω;X,y)αΩ(ω) 式中 XXXyyy 为训练样本和对应标签ω\omegaω 为权重系数的向量J(⋅)J(\cdot)J(⋅) 为目标函数Ω(ω)\Omega(\omega)Ω(ω) 即为惩罚项可理解为模型“规模”的某种度量参数 α\alphaα 用于控制正则化的强弱。不同的 Ω(⋅)\Omega(\cdot)Ω(⋅) 函数对权重 ω\omegaω 的最优解有不同的偏好因而会产生不同的正则化效果。最常用的 Ω\OmegaΩ 函数有两种即 L1L_1L1​ 范数和 L2L_2L2​ 范数相应称之为 L1L_1L1​ / L2L_2L2​ 正则化。 L1L_1L1​ 正则化是指权重向量 ω\omegaω 中各个元素绝对值之和 Ω(ω)∣∣ω∣∣1∑i∣ωi∣\Omega(\omega)||\omega||_1\sum_i|\omega_i| Ω(ω)∣∣ω∣∣1​i∑​∣ωi​∣ L2L_2L2​ 正则化是指权重向量 ω\omegaω 中各个元素的平方和 Ω(w)∣∣ω∣∣2∑iωi2\Omega(w)||\omega||_2\sum_i\omega^2_i Ω(w)∣∣ω∣∣2​i∑​ωi2​ 二、对 L1L_1L1​ 、L2L_2L2​ 的理解方式 本小节将从不同的方式对 L1L_1L1​ 和 L2L_2L2​ 进行讲解方便读者对 L1L_1L1​、L2L_2L2​ 的作用有一个更深的理解。同时在面试的时候也可以更加从容地回答面试官的问题。本人通过阅读、总结网络上的各种文章提供5种理解方式 正则化理解之最大后验概率估计正则化理解之梯度正则化理解之等高线图正则化理解之数学公式解析正则化理解之结构风险最小化 1 正则化理解之最大后验概率估计 在最大似然估计中假设权重 ω\omegaω 是位置的参数有对数似然函数 L(ω)ln[P(y∣X;ω)]ln∏iP(yi∣xi;ω)L(\omega)ln[P(y|X;\omega)]ln\prod_iP(y^{i}|x^i;\omega) L(ω)ln[P(y∣X;ω)]lni∏​P(yi∣xi;ω) 通过假设 yiy^iyi 不同的概率分布可得到不同的模型。例如假设 yi∼N(ωTxi,σ2)y^i\sim N(\omega^Tx^i,\sigma^2)yi∼N(ωTxi,σ2) 的高斯分布则有 L(ω)ln∏12πσe−(yi−ωTxi)22σ2−12σ2∑i(yi−ωTxi)2CL(\omega)ln\prod \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\omega^Tx^i)^2}{2\sigma^2}}-\frac{1}{2\sigma^2}\sum_i(y^i-\omega^Tx^i)^2C L(ω)ln∏2π​σ1​e−2σ2(yi−ωTxi)2​−2σ21​i∑​(yi−ωTxi)2C 式中 CCC 为常数项由于常数项和系数项不影响 maxL(ω)maxL(\omega)maxL(ω) 的解因而可令 J(ω;X,y)−L(ω)J(\omega;X,y)-L(\omega)J(ω;X,y)−L(ω) 即可得到线性回归的代价函数。 在最大后验概率估计中则将权重 ω\omegaω 看做随机变量也具有某种分布从而有 P(ω∣X,y)P(ω,X,y)P(X,y)P(X,y∣ω)P(ω)P(X,y)∝P(y∣X,ω)P(ω)P(\omega|X,y)\frac{P(\omega,X,y)}{P(X,y)}\frac{P(X,y|\omega)P(\omega)}{P(X,y)}\propto P(y|X,\omega)P(\omega) P(ω∣X,y)P(X,y)P(ω,X,y)​P(X,y)P(X,y∣ω)P(ω)​∝P(y∣X,ω)P(ω) 同样取对数有 MAPlnP(y∣X,ω)P(ω)lnP(y∣X,ω)lnP(ω)MAPlnP(y|X,\omega)P(\omega)lnP(y|X,\omega)lnP(\omega) MAPlnP(y∣X,ω)P(ω)lnP(y∣X,ω)lnP(ω) 可以看出后验概率函数未在似然函数的基础上增加了一项 lnP(ω)lnP(\omega)lnP(ω)。 P(ω)P(\omega)P(ω) 的意义是对权重系数 ω\omegaω 的概率分布的先验假设在收集到训练样本 {X,y}\{X,y\}{X,y} 之后则根据 ω\omegaω 在 {X,y}\{X,y\}{X,y} 下的后验概率对 ω\omegaω 进行修正从而对 ω\omegaω 做出更好的估计。 若假设 ωj\omega_jωj​ 的先验分布为 0 均值的高斯分布即 ωj∼N(0,σ2)\omega_j\sim N(0,\sigma^2)ωj​∼N(0,σ2) 则有 lnP(ω)ln∏jP(ωj)ln∏j12πσe−ωj22σ2−12σ2∑jωj2C′lnP(\omega)ln\prod_jP(\omega_j)ln\prod_j\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\omega_j^2}{2\sigma^2}}-\frac{1}{2\sigma^2}\sum_j\omega_j^2C lnP(ω)lnj∏​P(ωj​)lnj∏​2π​σ1​e−2σ2ωj2​​−2σ21​j∑​ωj2​C′ 可以看到在高斯分布下 lnP(ω)lnP(\omega)lnP(ω) 的效果等价于在代价函数中增加 L2L_2L2​ 正则项。 若假设 ωj\omega_jωj​ 服从均值为 0、参数为 aaa 的拉普拉斯分布即 P(ωj)12ae−∣ωj∣aP(\omega_j)\frac{1}{\sqrt{2a}}e^{\frac{-|\omega_j|}{a}} P(ωj​)2a​1​ea−∣ωj​∣​ 则有 logP(ω)log∏j12ae−∣ωj∣a−1a∑j∣wj∣C′logP(\omega)log\prod_j\frac{1}{\sqrt{2a}}e^\frac{-|\omega_j|}{a}-\frac{1}{a}\sum_j|w_j|C logP(ω)logj∏​2a​1​ea−∣ωj​∣​−a1​j∑​∣wj​∣C′ 可以看到在拉普拉斯分布下 lnP(ω)lnP(\omega)lnP(ω) 的效果等价于在代价函数中增加 L1L_1L1​ 正则项。 故此我们得到对于 L1L_1L1​、L2L_2L2​ 正则化的第一种理解 L1L_1L1​ 正则化可通过假设权重 ω\omegaω 的先验分布为拉普拉斯分布im由最大后验概率估计导出L2L_2L2​ 正则化可通过假设权重 ω\omegaω 的先验分布为高斯分布由最大后验概率估计导出。 2 正则化理解之梯度 L1L_1L1​ 是 ω\omegaω 绝对值之和。当 ω\omegaω 大于 0 时梯度式中为正常数更新的参数 ω\omegaω 变小当 ω\omegaω 小于 0 时梯度始终为负常数更新的参数 ω\omegaω 变大所以L1L_1L1​ 正则化容易使参数变为 0 即特征稀疏化。 L2L_2L2​ 是 ω\omegaω 平方和。当 ω\omegaω 趋向于 0 时参数减小得非常缓慢因此 L2L_2L2​ 正则化是参数减小到很小的范围但不为 0 。 3 正则化理解值等值线图 易得略。 4 正则化理解之数学公式解析 假设原目标函数 J(ω)J(\omega)J(ω) 的最优解 ω∗\omega^*ω∗ 并假设其为二阶可导将 J(ω)J(\omega)J(ω) 在 ω∗\omega^*ω∗ 处进行二阶泰勒展开 J~(ω)J(ω∗)12(ω−ω∗)TH(ω−ω∗)\widetilde{J}(\omega)J(\omega^*)\frac{1}{2}(\omega-\omega^*)^TH(\omega-\omega^*) J(ω)J(ω∗)21​(ω−ω∗)TH(ω−ω∗) 式中 HHH 为 J(ω)J(\omega)J(ω) 在 ω∗\omega^*ω∗ 处的 Hessian 矩阵注意 ω∗\omega^*ω∗ 为 J(ω)J(\omega)J(ω) 的最优解其一阶导数为 0因而式中无一阶导数项。J~(ω)\widetilde{J}(\omega)J(ω) 取得最小值时有 ∇ωJ~(ω)H(ω−ω∗)0\nabla_\omega\widetilde{J}(\omega)H(\omega-\omega^*)0 ∇ω​J(ω)H(ω−ω∗)0 由于 L2L_2L2​ 正则化的目标函数为在 J(ω)J(\omega)J(ω) 中添加 Ω(ω)12α∣∣ω∣∣2212αωTω\Omega(\omega)\frac{1}{2}\alpha||\omega||^2_2\frac{1}{2}\alpha\omega^T\omegaΩ(ω)21​α∣∣ω∣∣22​21​αωTω 因而有 ∇ωJ~(ω)∇ωJ^(ω)∇ωΩωH(ω−ω∗)αω\nabla_\omega\widetilde{J}(\omega)\nabla_{\omega}\hat{J}(\omega)\nabla_\omega\Omega_\omegaH(\omega-\omega^*)\alpha\omega ∇ω​J(ω)∇ω​J^(ω)∇ω​Ωω​H(ω−ω∗)αω 设其最优解为 ω~\widetilde{\omega}ω 则有 H(ω~−ω∗)αω~0H(\widetilde{\omega}-\omega^*)\alpha\widetilde{\omega}0 H(ω−ω∗)αω0 ω~(HαI)−1Hω∗\widetilde{\omega}(H\alpha I)^{-1}H\omega^* ω(HαI)−1Hω∗ 由于 HHH 是对称矩阵可对其做特征值分解即 HQΛQ−1HQ\Lambda Q^{-1}HQΛQ−1 其中 QQQ 为正交矩阵且每一列为 HHH 的特征向量代入上式有 ω~Q(ΛαI)−1ΛQTω∗\widetilde{\omega}Q(\Lambda\alpha I)^{-1}\Lambda Q^T\omega^* ωQ(ΛαI)−1ΛQTω∗ 其中 Λ\LambdaΛ 为对角矩阵其对角线元素为 HHH 的特征值 λj\lambda_jλj​ 。 ω∗\omega^*ω∗ 可以 QQQ 为正交基上做线性展开由上式可知 ω~\widetilde{\omega}ω 为 ω∗\omega^*ω∗ 在 HHH 的每个特征向量上的分量以 λjλjα\frac{\lambda_j}{\lambda_j\alpha}λj​αλj​​ 比例缩放得到。若 λj≫α\lambda_j\gg\alphaλj​≫α 则 ωj\omega_jωj​ 受正则化的影响较小若 λ≪α\lambda\ll\alphaλ≪α 则 ωj∗\omega_j^*ωj∗​ 受正则化的影响较大将收缩到接近于 0 的值。同时若 ωj∗≠0\omega^*_j\ne0ωj∗​0 则 ω~j≠0\widetilde{\omega}_j\ne0ωj​0 因而 L2L_2L2​ 正则化不会产生稀疏性的效果。 对于 L1L_1L1​ 正则化只需将 Ω(ω)\Omega(\omega)Ω(ω) 替换为 ω\omegaω 的 L1L_1L1​ 范数同理可以得到 ∇ωJ~(ω)∇J^(ω)∇ωΩ(ω)H(ω−ω∗)αsign(ω)\nabla_\omega\widetilde{J}(\omega)\nabla\hat{J}(\omega)\nabla_\omega\Omega(\omega)H(\omega-\omega^*)\alpha sign(\omega) ∇ω​J(ω)∇J^(ω)∇ω​Ω(ω)H(ω−ω∗)αsign(ω) 其最优解满足 H(ω~−ω∗)αsign(ω~)0H(\widetilde{\omega}-\omega^*)\alpha sign(\widetilde{\omega})0 H(ω−ω∗)αsign(ω)0 为了简化讨论我们假设 HHH 为对角阵即 Hdiag[H11,H22,…,Hnn]Hdiag[H_{11},H_{22},\dots,H_{nn}]Hdiag[H11​,H22​,…,Hnn​]Hjj0H_{jj}0Hjj​0 。此时 ω\omegaω 的不同分量之间没有相关性该假设可通过对输入特征进行预处理如使用 PCA得到此时 ω~\widetilde{\omega}ω 的解为 ω~sign(ωj∗)max{∣ωj∗∣−αHjj,0}\widetilde{\omega}sign(\omega_j^*)max\{|\omega_j^*|-\frac{\alpha}{H_{jj}},0\} ωsign(ωj∗​)max{∣ωj∗​∣−Hjj​α​,0} 当 ∣ωj∗∣≤αHjj|\omega^*_j|\le \frac{\alpha}{H_{jj}}∣ωj∗​∣≤Hjj​α​ 时可知 ω~j0\widetilde{\omega}_j0ωj​0 因而 L1L_1L1​ 正则化会使得最优解的某些元素为 0从而产生稀疏性∣ωj∗∣≥αHjj|\omega^*_j|\ge \frac{\alpha}{H_{jj}}∣ωj∗​∣≥Hjj​α​ 时ω~j\widetilde{\omega}_jωj​ 会在原有最优解上偏移一个常数值。 综上L2L_2L2​ 正则化的效果是对原最优解的每个元素进行不同比例的放缩L1L_1L1​ 正则化则会使原最优解的元素产生不同量的偏移并使得某些元素为 0从而产生稀疏性。 5 正则化理解之结构风险最小化 在经验风险最小化也就是训练误差最小化的基础上尽可能采用简单的模型奥卡姆剃刀理论以此提高泛化预测精度。 L1L_1L1​ 从参数个数的角度去衡量模型的复杂度L2L_2L2​ 从参数值的大小的角度去衡量模型的复杂度 三、L1L_1L1​、L2L_2L2​ 的适用场景 由于 L1L_1L1​ 、L2L_2L2​ 的特点因此他们有各自不同的适用场景。 L1L_1L1​ 使模型中尽可能多的参数值为 0是一种从改变模型结构的角度减少模型参数的数量解决过拟合的方式。因此适用于模型剪枝、模型压缩、特征选择。L2L_2L2​ 使模型中所有的参数值尽可能小是的模型尽量不依赖于某几个特殊的特征而是使得每个特征得到尽量均衡的权重即从参数分布让分布尽可能地均匀的角度解决过拟合问题这也是常用的解决过拟合的方式。因此适用于解决一般的过拟合问题 引用 MrLi深入理解L1、L2正则化 bingo酱L1正则化与L2正则化 落落大方的发卡拉普拉斯分布 张小磊极大似然估计与最大后验概率估计
http://www.zqtcl.cn/news/706535/

相关文章:

  • 厦门做网站培训安康市电梯公司
  • 江苏水利建设网站排行榜百度
  • 营销导向的企业网站优化wordpress制作企业
  • 株洲网站建设公司wordpress资讯类主题破解版
  • 网站导航栏设计要求wordpress直达按钮
  • 网站建设寻找可以途径网站制作的目的
  • 私募基金网站建设wordpress快讯插件
  • 无锡网站搜索引擎优化校园二级网站建设
  • 用vps刷网站流量要怎么做云主机开网站教程
  • 个体户经营异常如何网上解除深圳seo云哥
  • 网站建设科研申报书沧州网站建设定制价格
  • 家纺营销型网站wordpress演示数据
  • 中卫建设厅网站中国纪检监察报
  • 网站建设费如何核算如何给网站做权重
  • 东莞营销型高端网站建设网页专题设计
  • 神兵网站建设互联网个人用户网站
  • 类似视频教程网站的wordpress主题网页设计用什么尺寸的画布好
  • 仿模板电影网站线上销售的方法和技巧
  • 漳州建设银行网站首页速成建站
  • 网站建立的链接不安全怎么解决学校网站怎样建设
  • 信阳市工程建设信息网站wordpress段子
  • 网站建设和网络搭建是一回事吗长沙网站搭建优化
  • 基础网站怎么做石景山公司
  • 吉他谱网站如何建设wordpress主题字体用隶书
  • 做一个宣传网站的策划书自己怎样推广呢
  • 网站建设布局利于优化火狐搜索引擎
  • 公司给别人做的网站违法吗hexo插件wordpress
  • 网站用什么语言做动易网站迁移
  • 网站备案上传照片几寸织梦模板网站好吗
  • 怎么通过数据库做网站的登录wordpress 注册登录插件