网站建设许可证,wordpress中文分词,上海网站的优化公司哪家好,乌市网络营销公司Transformer模型已经成为当前所有自然语言处理NLP的标配#xff0c;如GPT#xff0c;Bert#xff0c;Sora#xff0c;LLama#xff0c;Grok等。假如《Attention Is All You Need》类比为爱因斯坦的侠义相对论#xff0c;Transformer模型则堪称EMC^2之等量公式。
看过论文…Transformer模型已经成为当前所有自然语言处理NLP的标配如GPTBertSoraLLamaGrok等。假如《Attention Is All You Need》类比为爱因斯坦的侠义相对论Transformer模型则堪称EMC^2之等量公式。
看过论文之后我们按照输入输出顺序重新梳理一遍这个模型
论文中的6层encoder和decoder 论文中的transformer架构 各个组件简介
1Inputs论文中是为了英德翻译inputs就是英文
2input embedding文本嵌入将文本中词汇转为张量表示。
3positional encoding位置编码器将位置信息加入到文本嵌入张量。
4encoder编码器提取特征值。论文中有6层N6每个encoder里面有2个子层
Multi-Head attention多头注意机制这个是transformer的核心下文细讲Feed forward前馈全连接担心Multi-Head attention的拟合结果不够增加全连接网络提高拟合能力。子层连接结构addnorm add残差连接跳跃连接把原来的输入跟输出又并到一起。norm规范化层的主要作用在一定的网络层数之后对数值进行规范化使得特征数值保持在合理的范围内。这样可以有效地解决参数过大或过小的问题提高模型的稳定性和收敛速度。
5outputsshifted right论文中是为了英德翻译outputs就是德文。
6output embedding文本嵌入将文本中词汇转为张量表示。
7decoder解码器使用特征值预测输出。论文中有6层N6decoder里面有3个子层跟encode大体相同下面只讲不同的地方
Masked Multi-Head attention在encode里面的MHA因为是训练阶段所以知道输入的所有信息计算了所有输入的注意力而decoder是要预测输出只能根据已有的输入不能预知未来。所以需要Masked未知的输出。中间的Multi-Head attention把encode里的输出K和V英文注入到MHA用来拟合英德翻译。
8linear线性层转化维度。
9softmax使最后一维向量缩放到0-1之间。
10output Proabilities输出的就是概率。
encoder/decoder动画 GIF图片引用
https://blog.research.google/2017/08/transformer-novel-neural-network.htmlhttps://blog.research.google/2017/08/transformer-novel-neural-network.html