网站设计优化,重庆教育建设有限公司网站,网站群建设方案6,响应式网页设计与实现一、答主1
机器翻译
transformer刚被提出的时候就是被用于处理机器翻译的。在transformer架构中的不同位置Q#xff0c;K#xff0c;V指代的变量是不一样的。 假设现在处理的是英文-德文的翻译任务。
在encoder的输入端#xff0c;这里执行的是self-attention#x…一、答主1
机器翻译
transformer刚被提出的时候就是被用于处理机器翻译的。在transformer架构中的不同位置QKV指代的变量是不一样的。 假设现在处理的是英文-德文的翻译任务。
在encoder的输入端这里执行的是self-attentionQ、K、V 都是指代英文的embedding。在decoder的输入端这里执行的是masked self-attentionQ、K、V 都是指代德文的embedding。在encoder的输出端和decoder的某个layer的输出进行交互的时候也就是执行cross-attention的时候Q指代的是德文的embeddingK、V指代英文的embedding。
车道线检测
在CLRNet中也用到了transformer的结构这里的QKV就可以指代不同的东西了。Q指代了车道线的特征K、V指代的是图像的feature map来计算车道线特征对图像全局特征的注意力情况。
目标检测
用DETR做检测Q就指代了object query它是模型权重的一部分也就是可学习的参数。K、V同样指代了图像的feature map。
从以上3个不同的任务可以更加直观的去理解Q、K、V根据不同任务指代的物理量是不一样的也可以更加深入的去理解它的计算过程和其背后的注意力机制的思想。所以Q这个变量一般同具体的任务有关而K、V两个变量是Q想要关注的物理量。transformer这种结构能够在不同领域都能使用可见它的通用性。
二、答主2
问题搜答案
你有一个问题Q然后去搜索引擎里面搜搜索引擎里面有好多文章每个文章V有一个能代表其正文内容的标题K然后搜索引擎用你的问题Q和那些文章V的标题K进行一个匹配看看相关度QK —attention值然后你想用这些检索到的不同相关度的文章V来表示你的问题就用这些相关度将检索的文章V做一个加权和那么你就得到了一个新的Q’这个Q’融合了相关性强的文章V更多信息而融合了相关性弱的文章V较少的信息。这就是注意力机制注意力度不同重点关注权值大与你想要的东西相关性强的部分稍微关注权值小相关性弱的部分。
三、答主3
查字典
假想你有一个map/dict或者其他名字一个key对应一个value在检索的时候给定query如果query in map就是query等于其中一个key就返回对应的value。这个方法太hard了有就是有没有就是没有。对于qkv都是向量的情况这种方法不可行只能让它变soft那就是算一算query和key的关系按照比例对value加和这和max变成softmax有异曲同工之妙。
可能更类似于插值比如你去爬山半山腰想知道自己的海拔周围有远有近有高有低好几个海拔参考点你通过它们来估计自己的海拔当然是越近越有参考作用也就是注意力系数越大。要是估算错了怎么办幸好你爬到山顶有真实海拔估算错误就修正顺便把之前你参考的那些值也修正了。爬山的人越多修正的次数越多那些参考值越准确。
四、答主4
查询Q代表我们想要理解的词例如“machines”的向量表示。键K代表句子中所有词包括“Thinking”和“machines”的向量表示用于与Q进行比较。值V同样代表句子中所有词的向量表示但是当计算出Q和K的相似度后将用于加权求和生成输出。
参考文章
知乎讨论——transformer中的Q,K,V到底是什么一系列文章ChatGPT背后强大而神秘的力量用最简单的语言讲解Transformer架构之概览外国人专业文章讲解图解 transformer——注意力计算原理Transformer 01自注意力机制QKV详解