当前位置: 首页 > news >正文

六安论坛网站怎么二次开发wordpress

六安论坛网站,怎么二次开发wordpress,淘宝联盟推广网站怎么做,画册欣赏网站8.7.1 循环神经网络的梯度分析 本节主要探讨梯度相关问题#xff0c;因此对模型及其表达式进行了简化#xff0c;进行如下表示#xff1a; h t f ( x t , h t − 1 , w h ) o t g ( h t , w o ) \begin{align} h_tf(x_t,h_{t-1},w_h)\\ o_tg(h_t,w_o) \end{ali…8.7.1 循环神经网络的梯度分析 本节主要探讨梯度相关问题因此对模型及其表达式进行了简化进行如下表示 h t f ( x t , h t − 1 , w h ) o t g ( h t , w o ) \begin{align} h_tf(x_t,h_{t-1},w_h)\\ o_tg(h_t,w_o) \end{align} ht​ot​​f(xt​,ht−1​,wh​)g(ht​,wo​)​​ 参数字典 t t t 表示时间步 h t h_t ht​ 表示时间步 t t t 的隐状态 x t x_t xt​ 表示输入 o t o_t ot​ 表示输出 w h w_h wh​ 表示隐藏层权重 w o w_o wo​ 表示输出层权重 f f f 表示隐藏层变换 g g g 表示输出层权重 前向传播相当简单一次一个时间步的遍历三元组 ( x t , h t , o t ) (x_t,h_t,o_t) (xt​,ht​,ot​)然后通过一个目标函数在所有 T T T 个时间步内评估输出 o t o_t ot​ 和对应的标签 y t y_t yt​ 之间的差异 L ( x 1 , … , x T , y 1 , … , y T , w h , w o ) 1 T ∑ t 1 T l ( y t , o t ) L(x_1,\dots,x_T,y_1,\dots,y_T,w_h,w_o)\frac{1}{T}\sum^T_{t1}l(y_t,o_t) L(x1​,…,xT​,y1​,…,yT​,wh​,wo​)T1​t1∑T​l(yt​,ot​) 对于反向传播就很棘手了特别是计算目标函数 L L L 关于参数 w h w_h wh​ 的梯度时按照链式法则 ∂ L ∂ w h 1 T ∑ t 1 T ∂ l ( y t , o t ) ∂ w h 1 T ∑ t 1 T ∂ l ( y t , o t ) ∂ o t ∂ g ( h t , w o ) ∂ h t ∂ h t ∂ w h \begin{align} \frac{\partial L}{\partial w_h}\frac{1}{T}\sum^T_{t1}\frac{\partial l(y_t,o_t)}{\partial w_h}\\ \frac{1}{T}\sum^T_{t1}\frac{\partial l(y_t,o_t)}{\partial o_t}\frac{\partial g(h_t,w_o)}{\partial h_t}\frac{\partial h_t}{\partial w_h} \end{align} ∂wh​∂L​​T1​t1∑T​∂wh​∂l(yt​,ot​)​T1​t1∑T​∂ot​∂l(yt​,ot​)​∂ht​∂g(ht​,wo​)​∂wh​∂ht​​​​ 乘积的第一项和第二项很容易计算 而第三项 ∂ h t / ∂ w h \partial h_t/\partial w_h ∂ht​/∂wh​ 是使事情变得棘手的地方因为我们需要循环地计算参数 w h w_h wh​ 对 h t h_t ht​ 的影响。根据定义式中的递归计算 h t h_t ht​ 既依赖于 h t − 1 h_{t-1} ht−1​ 又依赖于 w h w_h wh​其中 h t − 1 h_{t-1} ht−1​ 的计算也依赖于 w h w_h wh​。因此使用链式法则产生 ∂ h t ∂ w h ∂ f ( x t , h t − 1 , w h ) ∂ w h ∂ f ( x t , h t − 1 , w h ) ∂ h t − 1 ∂ h t − 1 ∂ w h \frac{\partial h_t}{\partial w_h}\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h} ∂wh​∂ht​​∂wh​∂f(xt​,ht−1​,wh​)​∂ht−1​∂f(xt​,ht−1​,wh​)​∂wh​∂ht−1​​ 消掉递归计算得 ∂ h t ∂ w h ∂ f ( x t , h t − 1 , w h ) ∂ w h ∑ i 1 t − 1 ( ∏ j i 1 t ∂ f ( x t , h j − 1 , w h ) ∂ h j − 1 ) ∂ f ( x i , h i − 1 , w h ) ∂ w h \frac{\partial h_t}{\partial w_h}\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}\sum^{t-1}_{i1}(\prod^t_{ji1}\frac{\partial f(x_t,h_{j-1},w_h)}{\partial h_{j-1}})\frac{\partial f(x_i,h_{i-1},w_h)}{\partial w_h} ∂wh​∂ht​​∂wh​∂f(xt​,ht−1​,wh​)​i1∑t−1​(ji1∏t​∂hj−1​∂f(xt​,hj−1​,wh​)​)∂wh​∂f(xi​,hi−1​,wh​)​ 虽然我们可以使用链式法则递归地计算 ∂ h t / ∂ w h \partial h_t/\partial w_h ∂ht​/∂wh​但当 t t t 很大时这个链就会变得很长。需要想办法来处理这一问题. 8.7.1.1 完全计算 最简单粗暴的方法可以直接计算然而这样的计算非常缓慢并且可能会发生梯度爆炸因为初始条件的微小变化就可能会对结果产生巨大的影响。也就是说类似于蝴蝶效应即初始条件的很小变化就会导致结果发生不成比例的变化。而我们正在寻找的是能够很好地泛化高稳定性模型的估计器。因此在实践中这种方法几乎从未使用过。 8.7.1.2 随即截断 可以用一个随机变量替换 ∂ h t / ∂ w h \partial h_t/\partial w_h ∂ht​/∂wh​该随机变量在预期中是正确的但是会截断序列。 这个随机变量是通过使用序列 ξ t \xi_t ξt​ 来实现的序列预定义了 0 π t 1 0\pi_t1 0πt​1其中 P ( ξ t 0 ) 1 − π t P(\xi_t0)1-\pi_t P(ξt​0)1−πt​ 且 P ( ξ t π t − 1 π t ) P(\xi_t\pi_t^{-1}\pi_t) P(ξt​πt−1​πt​)因此 E ∣ ξ t ∣ 1 E|\xi_t|1 E∣ξt​∣1。 我们使用它来替换梯度 ∂ h t / ∂ w h \partial h_t/\partial w_h ∂ht​/∂wh​ 得到 (8.7.8) z t ∂ f ( x t , h t − 1 , w h ) ∂ w h ξ t ∂ f ( x t , h t − 1 , w h ) ∂ h t − 1 ∂ h t − 1 ∂ w h z_t\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}\xi_t\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h} zt​∂wh​∂f(xt​,ht−1​,wh​)​ξt​∂ht−1​∂f(xt​,ht−1​,wh​)​∂wh​∂ht−1​​ 从 ξ t \xi_t ξt​ 的定义中推导出来 E ∣ ξ t ∣ ∂ h t / ∂ w h E|\xi_t|\partial h_t/\partial w_h E∣ξt​∣∂ht​/∂wh​。每当 ξ t 0 \xi_t0 ξt​0 时递归计算终止在这个 t t t 时间步。这导致了不同长度序列的加权和其中长序列出现的很少所以将适当地加大权重。 8.7.1.3 比较策略 行自上而下分别为: 第一行采用随机截断方法是将文本划分为不同长度的片断 第二行采用常规截断方法是将文本分解为相同长度的子序列。这也是我们在循环神经网络实验中一直在做的 第三行采用通过时间的完全反向传播结果是产生了在计算上不可行的表达式。 虽然随机截断在理论上具有吸引力但很可能是由于多种因素在实践中并不比常规截断更好: 首先在对过去若干个时间步经过反向传播后观测结果足以捕获实际的依赖关系。 其次增加的方差抵消了时间步数越多梯度越精确的事实。 第三我们真正想要的是只有短范围交互的模型。因此模型需要的正是截断的通过时间反向传播方法所具备的轻度正则化效果。 8.7.2 通过时间反向传播 “通过时间反向传播”仅仅适用于反向传播在具有隐状态的序列模型。 截断是计算方便性和数值稳定性的需要。截断包括规则截断和随机截断。 矩阵的高次幂可能导致神经网络特征值的发散或消失将以梯度爆炸或梯度消失的形式表现。 为了计算的效率“通过时间反向传播”在计算期间会缓存中间值。
http://www.zqtcl.cn/news/318908/

相关文章:

  • 长沙做网站哪里好百度招聘 网站开发
  • 创建网站服务器银川建设厅网站
  • 海口建设局网站代运营网站建设
  • 网站建设环境搭建心得体会微信开发者模式
  • 网站点击率多少正常落地页网站
  • 做淘宝店铺有哪些好的网站东莞网站制作建设收费
  • Wordpress 实名认证太原网站搜索优化
  • 大良网站建设dwxw网站可以自己做
  • 自己怎么建网站佛山哪家网站建设比较好
  • 长沙短视频制作公司广州网站优化注意事项
  • 北京西城网站建设公司蓬莱做网站价格
  • 网站镜像做排名网站托管工作室
  • 江苏省建设协会网站wordpress小说采集
  • 网站运行费用预算计算机学了出来干嘛
  • 什么网站上公司的评价最客观青州网站优化
  • 网站开发下载那个kk网龙岩
  • 网站页面统计代码是什么意思国外网站模板欣赏
  • 徐州社交网站传奇做网站空间
  • 网站服务器租赁怎样用ps做网站的效果图
  • 温州网站建设制作苏州做网站费用
  • 山东网站建设和游戏开发的公司排名网站开发工程师待遇淄博
  • 创建网站的代码公司网站建设服务公司
  • 徐州建站推广仿织梦长沙网站公司
  • 中山做网站的新闻静态网站模板下载
  • 以学校为目标做网站策划书企业管理软件都有哪些
  • 黄石网站开发云开发小程序源码
  • 重点实验室网站建设萧山好的做网站的公司
  • 物流网站的建设网站建设优化是什么鬼
  • 门户网站建设项目书页面设计一般用什么软件
  • 安徽城乡建设 厅网站电子商务网站建设需要哪些步骤