企业网站建设知乎,最专业的网站建设组织,关于三亚的网页设计,wordpress 分类翻页1.位置编码有哪些#xff1f;有什么区别#xff1f;
nn.embedding和正余弦编码两种用的多。nn.embedding是一种基于学习的嵌入方法#xff0c;
通过神经网络的训练过程#xff0c; 会自动学习数据中每个符号的嵌入向量表示。
而正余弦编码是一种手工设计的嵌入方式…1.位置编码有哪些有什么区别
nn.embedding和正余弦编码两种用的多。nn.embedding是一种基于学习的嵌入方法
通过神经网络的训练过程 会自动学习数据中每个符号的嵌入向量表示。
而正余弦编码是一种手工设计的嵌入方式是一种固定的编码方式不依赖于具体的数据和训练模型。
2.transformer的结构
encoder部分主要是为了提取特征decoder常用于生成式任务。FFN前馈网络进行特征交融。
3.为什么在QK相乘后要归一化
为了防止内积过大导致梯度爆炸这样更容易训练有点类似BN的作用。
4.为什么要使用multi head attention
CNN里面有多个卷积核来提取不同维度的特征信息那么transformer里也想着把channel分为几份然后分别做注意力机制这样即可以降低计算量也可以学习不同维度的特征。具体操作把QKV分成几份然后分别注意力得到特征再concat。
5.后续继续更新