当前位置: 首页 > news >正文

广东网站建设熊掌号企业网站制作公司盈利

广东网站建设熊掌号,企业网站制作公司盈利,西安企业网站建设托管,如何提高网站的安全性Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度#xf…Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度 g t t\;时刻的梯度g_{t} t时刻的梯度gt​ t 时刻的神经网络 : f ( x ; W t ) t\;时刻的神经网络: f(x;W_{t}) t时刻的神经网络:f(x;Wt​) t 时刻的梯度 g t 的一阶动量 : m t t\;时刻的梯度g_{t}的一阶动量: m_{t} t时刻的梯度gt​的一阶动量:mt​ t 时刻的梯度 g t 的二阶动量 : v t t\;时刻的梯度g_{t}的二阶动量: v_{t} t时刻的梯度gt​的二阶动量:vt​ 一阶动量历史权重 : β 1 一阶动量历史权重: \beta_{1} 一阶动量历史权重:β1​ 二阶动量历史权重 : β 2 二阶动量历史权重: \beta_{2} 二阶动量历史权重:β2​ 权重衰减项权重 λ 权重衰减项权重\lambda 权重衰减项权重λ 文章目录 Optimizer 优化1 SGD2 mSGD3 AdaGrad4 RMSProp5 Adam6 AdamW7 总结 1 SGD SGD(Stochastic Gradient Descent)随机梯度下降算法在深度学习中是一个最基础的优化算法相比于传统凸优化所使用的梯度下降算法GDSGD是在一个mini-batch中进行的。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t W_{t}W_{t-1}-\alpha g_{t} Wt​Wt−1​−αgt​ 即计算一个mini-batch中的损失函数的梯度之后根据学习率进行更新SGD可能存在的问题是更新幅度与梯度线性相关一方面网络不同层之间参数数值分布可能很不一致这导致学习率的选择困难不同层之间的更新速度不一致另一方面不利于摆脱局部极小值SGD对于局部极小值的摆脱能力来源于Stochastic即mini-batch中的样本随机而非GD的全局选择给予了一定的摆脱能力。 2 mSGD mSGD(Moving Average SGD)是SGD的改进算法在SGD的基础上引入了动量从而平滑了参数的更新并且给予了一定摆脱局部极小值的能力。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_{1}m_{t-1}(1-\beta_{1})g_{t} mt​β1​mt−1​(1−β1​)gt​ W t W t − 1 − α m t W_{t}W_{t-1}-\alpha m_{t} Wt​Wt−1​−αmt​ 即使参数到达了一个局部最小值点由于动量 m t m_{t} mt​的存在类似于惯性优化参数会冲过一部分的局部极小值或者鞍点。 3 AdaGrad AdaGrad(Adaptive Gradient)算法是一种自适应学习率的算法其根据历史梯度平方和的大小动态调整学习率使得学习率逐渐下降。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t ∑ i 1 t g i 2 ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{\sum_{i1}^t g_{i}^2}\epsilon} Wt​Wt−1​−α∑i1t​gi2​ ​ϵgt​​ AdaGrad根据过往的梯度平方和动态调整学习率其优点是学习率自适应缺点是学习率单调下降且受极易历史极端梯度大小影响可能导致后续学习率过小无法跳出局部极小值。 4 RMSProp RMSProp(Root Mean Square Propagation)算法是对AdaGrad的改进引入momentum使得学习率下降更加平滑不易受到极端梯度的影响。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_{2}v_{t-1}(1-\beta_{2})g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ W t W t − 1 − α g t v t ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{v_{t}}\epsilon} Wt​Wt−1​−αvt​ ​ϵgt​​ RMSRrop改进了AdaGrad也为Adamting算法提供了基础。 5 Adam Adam(Adaptive Momentum)算法身上明显沿用了RMSProp和mSGD的优点同时结合了动量与自适应学习率其同时使用了一阶动量和二阶动量使得Adam算法在收敛速度上优于RMSProp且具有较好的自适应性。 且针对一阶动量和二阶动量的初始化问题若初始化为0则需要很长时间才能累计达到一个基本的学习率因此Adam算法采用了一个随时间变化的补偿项使得一阶动量在刚开始时具有更大的值且在后期逐渐衰减。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_1m_{t-1}(1-\beta_1)g_{t} mt​β1​mt−1​(1−β1​)gt​ v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_2v_{t-1}(1-\beta_2)g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ m t ^ m t 1 − β 1 t \hat{m_t}\frac{m_t}{1-\beta_1^t} mt​^​1−β1t​mt​​ v t ^ v t 1 − β 2 t \hat{v_t}\frac{v_t}{1-\beta_2^t} vt​^​1−β2t​vt​​ W t W t − 1 − α m t ^ v t ^ ϵ W_{t}W_{t-1}-\alpha \frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon} Wt​Wt−1​−αvt​^​ ​ϵmt​^​​ 可以看到Adam同时采用了一阶动量和二阶动量并且采用了 1 1 β t \frac{1}{1\beta^t} 1βt1​的形式对于动量进行补偿从而有着极强的自适应能力是如今最常用的优化算法之一。 6 AdamW AdamW算法是对Adam算法的纠错其引入了权重衰减(weight decay)在过往的Adam算法中面对有着正则项的损失函数时往往对于正则项的处理为第一步 g t g_t gt​中 A d a m 处理 ( 错误 ) g t ∇ f ( x ; W t − 1 ) 2 λ W t − 1 Adam处理(错误)g_{t}\nabla f(x;W_{t-1})2\lambda W_{t-1} Adam处理(错误)gt​∇f(x;Wt−1​)2λWt−1​ 而AdamW算法中修正了这一错误将正则项在最后一步权重更新时进行处理即weight decay不参与动量计算公式为 W t W t − 1 − α ( m t ^ v t ^ ϵ 2 λ W t − 1 ) W_{t}W_{t-1}-\alpha (\frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon}2\lambda W_{t-1}) Wt​Wt−1​−α(vt​^​ ​ϵmt​^​​2λWt−1​) 7 总结 以上就是最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的总结其中AdamW算法是Adam算法的改进SGD在CNN中还有不错的发挥但在Transformer中却效果一般如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用如Llama、OPT、GPT等即使还有一些新的如Lion等优化器但大体上了解以上优化器就足够了。
http://www.zqtcl.cn/news/914232/

相关文章:

  • 深圳建筑业协会官网seo短视频新地址在哪里
  • 学院宣传网站制作大型网站团队人数
  • 新品发布会ppt参考友山建站优化
  • 做网站云服务器装系统厦门网站建设哪家强
  • 网站建设顶呱呱东莞建设信息网官网
  • 化妆品网站下载企业宣传片报价明细
  • php建设网站怎么用网站建设忽悠
  • 网站软件app免费注册账号qq
  • 清河网站建设公司西安开发网站的公司
  • 怎么用自己的服务器做网站软件接口设计文档
  • 昆明做网站建设找谁郑州网站制作的公司哪家好
  • 天津seo网站推广如何做医美机构网站观察分析
  • 东莞网站到首页排名网站建设与设计主要是干什么的
  • 自己做网站要花钱吗个人网站可以做资讯吗
  • 做vr效果图的网站做小程序的公司有哪些比较好
  • 物流建设网站总结制作壁纸的软件
  • 自己电脑做主机怎么做网站培训公司排名
  • 网站seo优化排名qq空间wordpress搬家
  • 做二手元器件那个网站查价格元气森林网络营销策略分析
  • 优质网站建设是哪家17网站一起做网店不发货
  • 建设企业网银如何对账seo优化推广工程师
  • 广州制作外贸网站小说网站制作公司
  • 东莞南城网站建设价格注册深圳公司有什么好处
  • 做网站图片大小建个人网站要多少钱
  • 北京免费建网站seo网站关键词
  • 南宁网站制作公司dede网站建站教程
  • 辽宁省建设工程招标协会网站自建网站主题及策划
  • 石材做网站google建网站
  • 装配式建筑信息平台无忧seo博客
  • 做淘客网站用备案网络推广预算方案