什么是网站的自适应,培训学校加盟费用,订做网站,有没有专门做纸箱的网站前言
Transformer模型出自论文#xff1a;《Attention is All You Need》 2017年
近年来#xff0c;在自然语言处理领域和图像处理领域#xff0c;Transformer模型都受到了极为广泛的关注#xff0c;很多模型中都用到了Transformer或者是Transformer模型的变体#xff0…前言
Transformer模型出自论文《Attention is All You Need》 2017年
近年来在自然语言处理领域和图像处理领域Transformer模型都受到了极为广泛的关注很多模型中都用到了Transformer或者是Transformer模型的变体而且对于很多任务使用加了Transformer的模型可以获得更好的效果这也证明了Transformer模型的有效性。
由于Transformer模型内容较多想要深入理解该模型并不容易所以我分了大概3~4篇博客来介绍Transformer模型第一篇也就是本篇博客主要介绍Transformer模型的整体架构对模型有一个初步的认识和了解第二篇是看了b站李宏毅老师的Transformer模型讲解之后做的知识总结内容比较多可能会分成两篇博客第三篇从代码的角度来理解Transformer模型。
目前我只完成了前两篇论文地址如下之后完成第三篇会进行更新。
第一篇【Transformer】深入理解Transformer模型1——初步认识了解-CSDN博客
第二篇【Transformer】深入理解Transformer模型2——深入认识理解上-CSDN博客
第三篇【Transformer】深入理解Transformer模型2——深入认识理解下-CSDN博客
第四篇 深入认识理解上
自注意力机制(self-attention)可以用于transformer、BERT等 对于输入的向量集合其输出考虑了一整个sequence的信息输出的label个数等于输入的向量个数。 self-attention可以和fully connected交替使用即self-attention可以处理整个sequence的资讯fully connected专注于处理某一个位置的资讯。 由a产生b1的过程
1根据a1找到序列a中与a1相关的向量。要做self-attention的目的就是要考虑整个sequence但我们又不希望把整个sequence所有的资讯包含在一个windows里面。所以我们有一个很重要的机制找出很长的sequence里面到底哪些部分是重要的哪些部分与判断a1是哪个label是有关系的。两个向量之间的关联度用ɑ来表示。 2根据注意力得分ɑ’抽取出sequence里面重要的子句。 self-attention的整体操作如下图所示 多头自注意力机制(Multi-head self-attention)翻译任务、语音识别任务等使用较多的head会取得较好的效果。
理解不同的q代表不同种类的相关性所以需要使用多个q来表示多个不同种类的相关性。 注意self-attention中是没有位置信息的所以如果对所要完成的任务而言位置信息很重要那就要把位置信息塞进去通过positional encoding的方法。
位置编码(positional encoding)
原理为每一个位置设置一个位置向量(positional vector)ei其中i表示位置然后把ei加到ai上即可这样就结束了。这样就可以把位置信息告知self-attention。
self-attention VS CNN 论文On the Relationship between Self-Attention and Concolutional Layers(https://arxiv.org/abs/1911.03584)中有严格的数学推到证明。
CNN是self-attention的特例只要设定合适的参数self-attention可以做到和CNN一样的效果。
CNN只考虑receptive field中的资讯而self-attention考虑整张图片的资讯。self-attention中的receptive field就好像是机器自己学出来的而CNN中的receptive field是人为设定的。 self-attention VS RNN 以上就是本篇博客的内容了李宏毅老师视频的干货不少分两篇博客写吧还是~
另外提一下我最近发现的一个wps word的优点在视频截图右边的空白部分画一个文本框在里面写对应图片的笔记标注还挺好用的清晰而且方便对应图看笔记不用再上下翻了~hh