建网站的意义,大学跳蚤市场网站建设,软件开发流程详解,重庆找做墩子网站深度循环神经网络
循环神经网络只有一个单向的隐藏层#xff0c;在深度学习应用里#xff0c;我们通常会用到含有多个隐藏层的循环神经网络#xff0c;也称作深度循环神经网络。
下图演示了一个有LLL个隐藏层的深度循环神经网络#xff0c;每个隐藏状态不断传递至当前层的…深度循环神经网络
循环神经网络只有一个单向的隐藏层在深度学习应用里我们通常会用到含有多个隐藏层的循环神经网络也称作深度循环神经网络。
下图演示了一个有LLL个隐藏层的深度循环神经网络每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。
具体来说
在时间步ttt里设小批量输入Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d样本数为nnn输入个数为ddd第ℓ\ellℓ隐藏层ℓ1,…,L\ell1,\ldots,Lℓ1,…,L的隐藏状态为Ht(ℓ)∈Rn×h\boldsymbol{H}_t^{(\ell)} \in \mathbb{R}^{n \times h}Ht(ℓ)∈Rn×h隐藏单元个数为hhh输出层变量为Ot∈Rn×q\boldsymbol{O}_t \in \mathbb{R}^{n \times q}Ot∈Rn×q输出个数为qqq且隐藏层的激活函数为ϕ\phiϕ。
第1隐藏层的隐藏状态和之前的计算一样 Ht(1)ϕ(XtWxh(1)Ht−1(1)Whh(1)bh(1)),\boldsymbol{H}_t^{(1)} \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} \boldsymbol{b}_h^{(1)}),Ht(1)ϕ(XtWxh(1)Ht−1(1)Whh(1)bh(1)),
其中权重Wxh(1)∈Rd×h\boldsymbol{W}_{xh}^{(1)} \in \mathbb{R}^{d \times h}Wxh(1)∈Rd×h、Whh(1)∈Rh×h\boldsymbol{W}_{hh}^{(1)} \in \mathbb{R}^{h \times h}Whh(1)∈Rh×h和偏差 bh(1)∈R1×h\boldsymbol{b}_h^{(1)} \in \mathbb{R}^{1 \times h}bh(1)∈R1×h分别为第1隐藏层的模型参数。
当1ℓ≤L1 \ell \leq L1ℓ≤L时第ℓ\ellℓ隐藏层的隐藏状态的表达式为
Ht(ℓ)ϕ(Ht(ℓ−1)Wxh(ℓ)Ht−1(ℓ)Whh(ℓ)bh(ℓ)),\boldsymbol{H}_t^{(\ell)} \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} \boldsymbol{b}_h^{(\ell)}),Ht(ℓ)ϕ(Ht(ℓ−1)Wxh(ℓ)Ht−1(ℓ)Whh(ℓ)bh(ℓ)),
其中权重Wxh(ℓ)∈Rh×h\boldsymbol{W}_{xh}^{(\ell)} \in \mathbb{R}^{h \times h}Wxh(ℓ)∈Rh×h、Whh(ℓ)∈Rh×h\boldsymbol{W}_{hh}^{(\ell)} \in \mathbb{R}^{h \times h}Whh(ℓ)∈Rh×h和偏差 bh(ℓ)∈R1×h\boldsymbol{b}_h^{(\ell)} \in \mathbb{R}^{1 \times h}bh(ℓ)∈R1×h分别为第ℓ\ellℓ隐藏层的模型参数。
最终输出层的输出只需基于第LLL隐藏层的隐藏状态
OtHt(L)Whqbq,\boldsymbol{O}_t \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} \boldsymbol{b}_q,OtHt(L)Whqbq,
其中权重Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}Whq∈Rh×q和偏差bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}bq∈R1×q为输出层的模型参数。
同多层感知机一样隐藏层个数LLL和隐藏单元个数hhh都是超参数。此外如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算就可以得到深度门控循环神经网络。