工作计划及目标,网站优化 情况,wordpress中常用插件安装,商务互联 网站RNN(Recurrent Neural Network)#xff0c;中文称作循环神经网络#xff0c;它一般以序列数据为输入#xff0c;通过网络内部的结构设计有效捕捉序列之间的关系特征#xff0c;一般也是以序列形式进行输出。
因为RNN结构能够很好利用序列之间的关系#xff0c;因此针对自…RNN(Recurrent Neural Network)中文称作循环神经网络它一般以序列数据为输入通过网络内部的结构设计有效捕捉序列之间的关系特征一般也是以序列形式进行输出。
因为RNN结构能够很好利用序列之间的关系因此针对自然界具有连续性的输入序列如人类的语言语音等进行很好的处理广泛应用于NLP领域的各项任务如文本分类情感分析意图识别机器翻译等
RNN模型的分类
这里我们将从两个角度对RNN模型进行分类第一个角度是输入和输出的结构第二个角度是RNN的内部构造
按照输入和输出的结构进行分类
N vs N-RNN
它是RNN最基础的结构形式最大的特点就是输入和输出序列是等长的由于这个限制的存在使其适用范围比较小可用于生成等长度的合辙诗句
N vs 1-RNN
有时候我们要处理的问题输入是一个序列而要求输出是一个单独的值而不是序列要在最后一个隐层输出h上进行线性变换。
大部分情况下为了更好的明确结果还要使用sigmoid或者softmax进行处理这种结构经常被应用在文本分类问题上
1 vs N-RNN
我们最常采用的一种方式就是使该输入作用于每次的输出之上这种结构可用于将图片生成文字任务等
N vs M-RNN
这是一种不限输入输出长度的RNN结构它由编码器和解码器两部分组成两者的内部结构都是某类RNN它也被称为seq2seq架构。
输入数据首先通过编码器最终输出一个隐含变量c之后最常用的做法是使用这个隐含变量c作用在解码器进行解码的每一步上以保证输入信息被有效利用。
按照RNN的内部构造进行分类
传统RNN 内部计算函数 tanh的作用 用于帮助调节流经网络的值tanh函数将值压缩在1和1之间。
传统RNN的优势 由于内部结构简单对计算资源要求低相比之后我们要学习的RNN变体LSTM和GRU模型参数总量少了很多在短序列任务上性能和效果都表现优异。
传统rnn的缺点 传统RNN在解决长序列之间的关联时通过实践证明经典RNN表现很差原因是在进行反向传播的时候过长的序列导致梯度的计算异常发生梯度消失或爆炸。
LSTM
LSTM (Long Short-Term Memory也称长短时记忆结构它是传统RNN的变体与经典RNN相比能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时LSTM的结构更复杂。
LSTM缺点由于内部结构相对较复杂因此训练效率在同等算力下较传统RNN低很多
LSTM优势LSTM的门结构能够有效减缓长序列问题中可能出现的梯度消失或爆炸虽然并不能杜绝这种现象但在更长的序列问题上表现优于传统RNN.
它的核心结构可以分为四个部分去解析
遗忘门
与传统RNN的内部结构计算非常相似首先将当前时间步输入x(t与上一个时间步隐含状态h(t-1拼接 得到x(t), h(t-1)]然后通过一个全连接层做变换最后通过sigmoid函数变化到【01】进行激活得到f(t)我们可以将f(t看作是门值好比一扇门开合的大小程度门值都将作用在通过该扇门的张量遗忘门门值将作用的上一层的细胞状态上代表遗忘过去的多少信息又因为遗忘门门值是由x(t), h(t-1计算得来的因此整个公式意味着根据当前时间步输入和上一个时间步隐含状态h(t-1来决定遗忘多少上一层的细胞状态所携带的过往信息
输入门
输入门的计算公式有两个第一个就是产生输入门门值的公式它和遗忘门公式几乎相同区别只是在于它们之后要作用的目标上这个公式意味着输入信息有多少需要进行过滤输入门的第二个公式是与传统RNN的内部结构计算相同对于LSTM来讲它得到的是当前的细胞状态而不是像经典RNN一样得到的是隐含状态
细胞状态
我们看到输入门的计算公式有两个第一个就是产生输入门门值的公式它和遗忘门公式几乎相同区别只是在于它们之后要作用的目标上这个公式意味着输入信息有多少需要进行过滤输入门的第二个公式是与传统RNN的内部结构计算相同对于LSTM来讲它得到的是当前的细胞状态而不是像经典RNN一样得到的是隐含状态。
输出门
输出门部分的公式也是两个第一个即是计算输出门的门值它和遗忘门输入门计算方式相同第二个即是使用这个门值产生隐含状态h(t)他将作用在更新后的细胞状态C(t上并做tanh激活最终得到h(t作为下一时间步输入的一部分整个输出门的程就是为了产生隐含状态h(t)。
Bi-LSTM
Bi-LSTM即双向LSTM它没有改变LSTM本身任何的内部结构只是将LSTM应用两次且方向不同再将两次得到的LSTM结果进行拼接作为最终输出
GRU
GRU(Gated Recurrent Unit也称门控循环单元结构它也是传统RNN的变体同LSTM一样能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时它的结构和计算要比LSTM 更简单。
GRU的优势GRU和LSTM作用相同在捕捉长序列语义关联时能有效抑制梯度消失或爆炸效果都优于传统rnn且计算复杂度相比lstm要小
GRU的缺点GRU仍然不能完全解决梯度消失问题同时其作用RNN的变体有着RNN结构本身的一大弊端即不可并行计算这在数据量和模型体量逐步增大的未来是RNN发展的关键瓶颈
它的核心结构可以分为两个部分去解析
更新门
重置门
Bi-GRU
Bi-GRU与Bi-LSTM的逻辑相同都是不改变其内部结构而是将模型应用两次且方向不同再将两次得到的LSTM结果进行拼接作为最终输出具体参见上小节中的Bi-LSTM。
注意力机制
注意力机制是注意力计算规则能够应用的深度学习网络的载体同时包括一些必要的全连接层以及相关张量处理使其与应用网络融为一体使自注意力计算规则的注意力机制称为自注意力机制
注意力计算规则
它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果这个结果代表query在key和value作用下的注意力表示当输入的QKV时称作自注意力计算规则
注意力机制的作用
在解码器端的注意力机制 能够根据模型目标有效的聚焦编码器的输出结果当其作为解码器的输入时提升效果改善以往编码器输出是单一定长张量无法存储过多信息的情况
在编码器端的注意力机制主要解决表征问题相当于特征提取过程得到输入的注意力表示一般使用自注意力self-attention).
注意力机制实现步骤
第一步根据注意力计算规则对Q,K,V进行相应的计算
第二步根据第一步采用的计算方法如果是拼接方法则需要将Q与第二步的计算结果再进行拼接如果是转置点积一般是自注意力Q与V相同则不需要进行与Q的拼接
第三步最后为了使整个attention机制按照指定尺寸输出使用线性层作用在第二步的结果上做一个线性变换得到最终对Q的注意力表示
代码实现
传统模型
import torch
import torch.nn as nn
nn.RNN类初始化主要参数解释
input_size输入张量x中特征维度的大小
hidden_size隐层张量h中特征维度的大小
num_layers: 隐含层的数量
nonlinearity: 激活函数的选择默认是tanh.rnnnn.RNN(input_size5,hidden_size6,num_layers1)
设定输入的张量x
第一个参数sequence_length输入序列的长度
第二个参数batch_size批次的样本数
第三个参数input_size输入张量x的维度inputtorch.randn(1,3,5)设定初始化的h0
第一个参数num_layers *num_directions层数网络方向数
第二个参数batch_size批次的样本数
第三个参数hiddeh_size隐藏层的维度h0torch.randn(1,3,6)
nn.RNN类实例化对象主要参数解释
input: 输入张量x
h0初始化的隐层张量houtput,hnrnn(input,h0)
LSTM模型
import torch
import torch.nn as nn
nn.LSTM类初始化主要参数解释
input_size: 输入张量x中特征维度的大小
hidden_size: 隐层张量h中特征维度的大小
num_layers: 隐含层的数量
bidirectional: 是否选择使用双向LSTM如果为True则使用默认不使用rnnnn.LSTM(input_size5,hidden_size6,num_layers2)
设定输入的张量x
第一个参数sequence_length输入序列的长度
第二个参数batch_size批次的样本数
第三个参数input_size输入张量x的维度inputtorch.randn(1,3,5)设定初始化的h0,c0
第一个参数num_layers *num_directions层数网络方向数
第二个参数batch_size批次的样本数
第三个参数hiddeh_size隐藏层的维度h0torch.randn(2,3,6)
c0torch.randn(2,3,6)
nn.LSTM类实例化对象主要参数解释
input: 输入张量x
h0:初始化的隐层张量h.
cO:初始化的细胞状态张量c.output,(hn,cn)rnn(input,(h0,c0))GRU模型
import torch
import torch.nn as nn
nn.GRU类初始化主要参数解释
Input_size: 输入张量x中特征维度的大小
hidden_size:隐层张量h中特征维度的大小
num_layers:隐含层的数量
bidirectional: 是否选择使用双向LSTM如果为True则使用默认不使用rnnnn.GRU(input_size5,hidden_size6,num_layers2)
设定输入的张量x
第一个参数sequence_length输入序列的长度
第二个参数batch_size批次的样本数
第三个参数input_size输入张量x的维度inputtorch.randn(1,3,5)设定初始化的h0
第一个参数num_layers *num_directions层数网络方向数
第二个参数batch_size批次的样本数
第三个参数hiddeh_size隐藏层的维度h0torch.randn(2,3,6)
nn.GRU类实例化对象主要参数解释
input: 输入张量x.
h0:初始化的隐层张量h.output,hnrnn(input,h0)注意力模型
import torch
import torch.nn as nn
import torch.nn.functional as F#建立attn类
class Attn(nn.Module):def __init__(self, query_size,key_size,value_size1,value_size2,output_size):_summary_Args:query_size (_type_): 代表的是Q的最后一个维度key_size (_type_): 代表的K的最后一个维度value_size1 (_type_): 代表value的导数第二维大小value_size2 (_type_): 代表value的倒数第一维大小output_size (_type_): 代表输出的最后一个维度的大小super(Attn, self).__init__()self.query_size query_sizeself.key_size key_sizeself.value_size1 value_size1self.value_size2 value_size2self.output_size output_size# 初始化注意力机制self.attnnn.Linear(self.query_sizeself.key_size,self.value_size1)self.attn_combinenn.Linear(self.query_sizeself.value_size2,self.output_size)def forward(self,query,key,value):_summary_Args:query (_type_): 代表Qkey (_type_): 代表Kvalue (_type_): 代表VReturns:_type_: 返回注意力机制的输出# 计算注意力权重attn_weightsF.softmax(self.attn(torch.cat((query[0],key[0]),1)),dim1)attn_appliedtorch.bmm(attn_weights.unsqueeze(0),value)# 计算注意力机制的输出outputtorch.cat((query[0],attn_applied[0]),1)outputself.attn_combine(output).unsqueeze(0)return output,attn_weightsquery_size32
key_size32
value_size132
value_size264
output_size64#初始化attn
attnAttn(query_size,key_size,value_size1,value_size2,output_size)
#使用attn实例
Qtorch.randn(1,1,32)
Ktorch.randn(1,1,32)
Vtorch.randn(1,32,64)
outputattn(Q,K,V)