做网站一般注册哪几类商标,徐州网站开发要多少钱,许昌做网站九零后,微信公众号运营全攻略前情提要
编码器-解码器结构
如果将一个模型分为两块#xff1a;编码器和解码器那么编码器-解码器结构为#xff1a;编码器负责处理输入#xff0c;解码器负责生成输出流程#xff1a;我们先将输入送入编码器层#xff0c;得到一个中间状态state#xff0c;并送入解码器…前情提要
编码器-解码器结构
如果将一个模型分为两块编码器和解码器那么编码器-解码器结构为编码器负责处理输入解码器负责生成输出流程我们先将输入送入编码器层得到一个中间状态state并送入解码器层和额外的输入一同处理后得到模型的输出 CNN就可以重新表示为下图 RNN也可以表示为下图
Seq2seq
序列到序列的模型从一个句子生成到另一个句子模型分为编码器、解码器两部分其中编码器可以是一个RNN用来读取输入句子解码器使用另外一个RNN来输出生成的句子注意由于在输入时我们知道全部的输入句子所以可以用两个RNN做双向但是解码器是生成模型不能看到完整的句子所以不能做双向注意在编码器层通过开始bos、结束eos来控制编码器的输出 编码器层的输出是不会作为模型的输出相反它最后一层的输出作为编码器层输入的一部分和编码器层额外的输入合并整体作为编码器层的输入即编码器层的最后隐藏状态作为解码器的初始隐藏状态如下
Transformer的框架概述
NLP中预训练的目的为了生成词向量Transformer采用了seq2seq序列到序列的模型整体框架如下 seq2seq的模型基本都分为编码器层和解码器层即从编码器到解码器的结构
使用机器翻译的场景来解释
在机器翻译的场景中 编码器层把输入变成一个词向量解码器层得到编码器层输出的词向量后生成翻译的结果 同时N * 的意思是编码器层里面又有N个小编码器默认N6一个编码器可以看作Self-Attention而Self-Attention会对词向量做增强经过6个编码器那就是增强了6次编码器层最后的输出会分别给6个解码器 因此Transformer的关键就在于编码器和解码器如下