当前位置: 首页 > news >正文

网站模块图片尺寸网站开发南城科技大厦

网站模块图片尺寸,网站开发南城科技大厦,wordpress centos安装教程,大连网站设计Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度#xf…Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度 g t t\;时刻的梯度g_{t} t时刻的梯度gt​ t 时刻的神经网络 : f ( x ; W t ) t\;时刻的神经网络: f(x;W_{t}) t时刻的神经网络:f(x;Wt​) t 时刻的梯度 g t 的一阶动量 : m t t\;时刻的梯度g_{t}的一阶动量: m_{t} t时刻的梯度gt​的一阶动量:mt​ t 时刻的梯度 g t 的二阶动量 : v t t\;时刻的梯度g_{t}的二阶动量: v_{t} t时刻的梯度gt​的二阶动量:vt​ 一阶动量历史权重 : β 1 一阶动量历史权重: \beta_{1} 一阶动量历史权重:β1​ 二阶动量历史权重 : β 2 二阶动量历史权重: \beta_{2} 二阶动量历史权重:β2​ 权重衰减项权重 λ 权重衰减项权重\lambda 权重衰减项权重λ 文章目录 Optimizer 优化1 SGD2 mSGD3 AdaGrad4 RMSProp5 Adam6 AdamW7 总结 1 SGD SGD(Stochastic Gradient Descent)随机梯度下降算法在深度学习中是一个最基础的优化算法相比于传统凸优化所使用的梯度下降算法GDSGD是在一个mini-batch中进行的。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t W_{t}W_{t-1}-\alpha g_{t} Wt​Wt−1​−αgt​ 即计算一个mini-batch中的损失函数的梯度之后根据学习率进行更新SGD可能存在的问题是更新幅度与梯度线性相关一方面网络不同层之间参数数值分布可能很不一致这导致学习率的选择困难不同层之间的更新速度不一致另一方面不利于摆脱局部极小值SGD对于局部极小值的摆脱能力来源于Stochastic即mini-batch中的样本随机而非GD的全局选择给予了一定的摆脱能力。 2 mSGD mSGD(Moving Average SGD)是SGD的改进算法在SGD的基础上引入了动量从而平滑了参数的更新并且给予了一定摆脱局部极小值的能力。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_{1}m_{t-1}(1-\beta_{1})g_{t} mt​β1​mt−1​(1−β1​)gt​ W t W t − 1 − α m t W_{t}W_{t-1}-\alpha m_{t} Wt​Wt−1​−αmt​ 即使参数到达了一个局部最小值点由于动量 m t m_{t} mt​的存在类似于惯性优化参数会冲过一部分的局部极小值或者鞍点。 3 AdaGrad AdaGrad(Adaptive Gradient)算法是一种自适应学习率的算法其根据历史梯度平方和的大小动态调整学习率使得学习率逐渐下降。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t ∑ i 1 t g i 2 ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{\sum_{i1}^t g_{i}^2}\epsilon} Wt​Wt−1​−α∑i1t​gi2​ ​ϵgt​​ AdaGrad根据过往的梯度平方和动态调整学习率其优点是学习率自适应缺点是学习率单调下降且受极易历史极端梯度大小影响可能导致后续学习率过小无法跳出局部极小值。 4 RMSProp RMSProp(Root Mean Square Propagation)算法是对AdaGrad的改进引入momentum使得学习率下降更加平滑不易受到极端梯度的影响。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_{2}v_{t-1}(1-\beta_{2})g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ W t W t − 1 − α g t v t ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{v_{t}}\epsilon} Wt​Wt−1​−αvt​ ​ϵgt​​ RMSRrop改进了AdaGrad也为Adamting算法提供了基础。 5 Adam Adam(Adaptive Momentum)算法身上明显沿用了RMSProp和mSGD的优点同时结合了动量与自适应学习率其同时使用了一阶动量和二阶动量使得Adam算法在收敛速度上优于RMSProp且具有较好的自适应性。 且针对一阶动量和二阶动量的初始化问题若初始化为0则需要很长时间才能累计达到一个基本的学习率因此Adam算法采用了一个随时间变化的补偿项使得一阶动量在刚开始时具有更大的值且在后期逐渐衰减。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_1m_{t-1}(1-\beta_1)g_{t} mt​β1​mt−1​(1−β1​)gt​ v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_2v_{t-1}(1-\beta_2)g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ m t ^ m t 1 − β 1 t \hat{m_t}\frac{m_t}{1-\beta_1^t} mt​^​1−β1t​mt​​ v t ^ v t 1 − β 2 t \hat{v_t}\frac{v_t}{1-\beta_2^t} vt​^​1−β2t​vt​​ W t W t − 1 − α m t ^ v t ^ ϵ W_{t}W_{t-1}-\alpha \frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon} Wt​Wt−1​−αvt​^​ ​ϵmt​^​​ 可以看到Adam同时采用了一阶动量和二阶动量并且采用了 1 1 β t \frac{1}{1\beta^t} 1βt1​的形式对于动量进行补偿从而有着极强的自适应能力是如今最常用的优化算法之一。 6 AdamW AdamW算法是对Adam算法的纠错其引入了权重衰减(weight decay)在过往的Adam算法中面对有着正则项的损失函数时往往对于正则项的处理为第一步 g t g_t gt​中 A d a m 处理 ( 错误 ) g t ∇ f ( x ; W t − 1 ) 2 λ W t − 1 Adam处理(错误)g_{t}\nabla f(x;W_{t-1})2\lambda W_{t-1} Adam处理(错误)gt​∇f(x;Wt−1​)2λWt−1​ 而AdamW算法中修正了这一错误将正则项在最后一步权重更新时进行处理即weight decay不参与动量计算公式为 W t W t − 1 − α ( m t ^ v t ^ ϵ 2 λ W t − 1 ) W_{t}W_{t-1}-\alpha (\frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon}2\lambda W_{t-1}) Wt​Wt−1​−α(vt​^​ ​ϵmt​^​​2λWt−1​) 7 总结 以上就是最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的总结其中AdamW算法是Adam算法的改进SGD在CNN中还有不错的发挥但在Transformer中却效果一般如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用如Llama、OPT、GPT等即使还有一些新的如Lion等优化器但大体上了解以上优化器就足够了。
http://www.zqtcl.cn/news/472028/

相关文章:

  • 网站设计优化重庆教育建设有限公司网站
  • 域名注册网站查询手工制作视频教程简单又漂亮
  • 书画院网站源码网站百度指数
  • 网页设计与网站开发第三版课后答案网络运营商是干嘛的
  • wordpress分类目录网站主题自己做营销型网站
  • 简述网站推广的五要素seo排名软件怎么做
  • 做网站能做职业吗织梦如何做几种语言的网站
  • 手机网站定制咨询如何修改网站
  • 长沙大型网站建设公司建站工作室源码
  • 找设计方案的网站专注南昌网站建设
  • UE做的比较好的网站汕头网站关键词优化教程
  • 做羞羞的事情网站广州番禺招聘网最新招聘信息
  • 网站基础开发成本网站建设策划包括哪些内容
  • 商务网站建设哪家好绍兴网站建设做网站
  • 网站域名管理东莞网页设计和网页制作
  • 网站建设与制作报价网站app制作
  • 下载可以做动漫的我的世界视频网站长沙网站seo技巧
  • 汕头网站制作推荐制作影视视频的软件
  • 定制程序网站宁波英文网站建设
  • 安康公司做网站网页设计怎么设计
  • 小型企业网站系统南京seo外包平台
  • 曲靖网站制作邢台网站制作那家便宜
  • wordpress中portfolio重庆网站seo按天计费
  • 做淘客网站需要多大的空间工程公司名称大全简单大气
  • 康县建设局网站网站做优化
  • 笔记网站开发代码下载了wordpress后
  • 北京招聘高级网站开发工程师域名最新通知
  • 企业如何实现高端网站建设西安百度推广开户
  • 广西城乡住房建设厅网站首页本地 安装 WordPress主题
  • 网站开发 技术方案设计一个软件需要多少钱