外贸网站建设怎么制作,重庆百度seo关键词优化,Ie8网站后台编辑文章,网站空间网站虚拟空间文章目录 一、注意力提示1.1概念1.2生活中的注意力提示1.3注意力机制基本框架小结 二、注意力汇聚2.1概念2.2非参注意力汇聚2.2.1平均汇聚2.2.2Nadaraya-Waston核回归 2.3通用注意力汇聚公式2.4带参数注意力汇聚小结 三、注意力评分函数3.1概念3.2例子 四、遮蔽softmax三四小结… 文章目录 一、注意力提示1.1概念1.2生活中的注意力提示1.3注意力机制基本框架小结 二、注意力汇聚2.1概念2.2非参注意力汇聚2.2.1平均汇聚2.2.2Nadaraya-Waston核回归 2.3通用注意力汇聚公式2.4带参数注意力汇聚小结 三、注意力评分函数3.1概念3.2例子 四、遮蔽softmax三四小结 一、注意力提示
我们使用偏日常的注意力提示引入注意力机制
1.1概念 查询 query 自主性的提示 随意的 键 key 非自主性的提示 不随意的 值 value 感觉输入 值和键是成对的
注意此处的随意/不随意中的意是意志的意
1.2生活中的注意力提示
非自主性提示 自主性提示 人的意志就是自主性的提示引导注意力指向了书。当无意识时由于突出的非自主性提示(杯子)引导注意力指向了杯子。 此时人的意志为query杯子、书等物品为key最终注意力的去向为value
1.3注意力机制基本框架 注意力机制通过注意力汇聚将查询自主性提示和键非自主性提示结合在一起实现对值感官输入的选择倾向
小结
受试者使用非自主性和自主性提示有选择性地引导注意力。前者基于突出性后者则依赖于意识。注意力机制与全连接的层或汇聚层的区别增加了自主性提示
二、注意力汇聚
2.1概念
查询自主提示和键非自主提示之间的交互形成了注意力汇聚注意力汇聚有选择地聚合了值感官输入以生成最终的输出
2.2非参注意力汇聚
2.2.1平均汇聚 公式 f ( x ) 1 n ∑ i 1 n y i (1) f(x){1\over n}\sum_{i1}^n y_i \tag{1} f(x)n1i1∑nyi(1) 结果 观察可知查询-键对越接近注意力汇聚的注意力权值越高 缺点 忽略了输入 x x x
2.2.2Nadaraya-Waston核回归
改进 Nadaraya-Waston核回归比平均汇聚更优越的地方在于其考虑了输入 x x x的位置。根据输入位置x对数据y进行加权公式 f ( x ) ∑ i 1 n K ( x − x i ) ∑ j 1 n K ( x − x j ) y i , (2) f(x) \sum_{i1}^n \frac{K(x - x_i)}{\sum_{j1}^n K(x - x_j)} y_i, \tag{2} f(x)i1∑n∑j1nK(x−xj)K(x−xi)yi,(2) Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。优点 回归具有一致性如果有足够的数据模型将收敛到最优解(非参方法的特点) 注意 其中K为高斯核函数可自定义 2.3通用注意力汇聚公式
受K核的启发可以将注意力汇聚公式重写为更通用的形式适用于非参、带参 f ( x ) ∑ i 1 n α ( x , x i ) y i , (3) f(x) \sum_{i1}^n \alpha(x, x_i) y_i,\tag{3} f(x)i1∑nα(x,xi)yi,(3) 其中x是查询 ( x i , y i ) (x_i,y_i) (xi,yi)是键值对。 比较平均汇聚(1)和通用公式(3) 注意力汇聚是 y i y_i yi的加权平均。 将查询x和键 x i x_i xi之间的关系建模为 注意力权重 α ( x , x i ) \alpha(x,x_i) α(x,xi) 这个权重将被分配给每一个对应值 y i y_i yi。
对于任何查询模型在所有键值对注意力权重 α ( x , x i ) \alpha(x,x_i) α(x,xi)都是一个有效的概率分布 它们是非负的并且总和为1。 例子
可以自定义一个高斯核为 K ( u ) 1 2 π exp ( − u 2 2 ) K(u) \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}) K(u)2π 1exp(−2u2) 将其带入(3)中可以得到注意力汇聚公式如(4) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ( − 1 2 ( x − x i ) 2 ) ∑ j 1 n exp ( − 1 2 ( x − x j ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( x − x i ) 2 ) y i . (4) \begin{split}\begin{aligned} f(x) \sum_{i1}^n \alpha(x, x_i) y_i\\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4} f(x)i1∑nα(x,xi)yii1∑n∑j1nexp(−21(x−xj)2)exp(−21(x−xi)2)yii1∑nsoftmax(−21(x−xi)2)yi.(4) 在(4)中给出的查询x越接近某个键 x i x_i xi则分配给这个键对应值 y i y_i yi的注意力权重就会越大也就获得了更多的注意力。
特别的Nadaraya-Watson核回归是一个非参数模型。因此将K带入后的通用注意力汇聚模型也为非参的模型。如果带入一个带参模型则为带参的注意力汇聚模型。
2.4带参数注意力汇聚
将(3)带入一个带参模型则为带参的注意力汇聚模型。如公式(5) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ( − 1 2 ( ( x − x i ) w ) 2 ) ∑ j 1 n exp ( − 1 2 ( ( x − x j ) w ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( ( x − x i ) w ) 2 ) y i . \begin{split}\begin{aligned}f(x) \sum_{i1}^n \alpha(x, x_i) y_i \\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}((x - x_j)w)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}\end{split} f(x)i1∑nα(x,xi)yii1∑n∑j1nexp(−21((x−xj)w)2)exp(−21((x−xi)w)2)yii1∑nsoftmax(−21((x−xi)w)2)yi.
小结
注意力汇聚可以分为非参数型和带参数型Nadaraya-Watson核回归具有非参数的注意力机制的机器学习范例Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数
至此注意力机制的基本概念介绍完毕接下来介绍注意力机制的进阶概念 三、注意力评分函数
3.1概念
在通用注意力汇聚公式介绍时我们自定义了一个高斯核并将其带入通用注意力汇聚公式中 K ( u ) 1 2 π exp ( − u 2 2 ) K(u) \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}) K(u)2π 1exp(−2u2) 将其带入(3)中可以得到注意力汇聚公式如(4) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ( − 1 2 ( x − x i ) 2 ) ∑ j 1 n exp ( − 1 2 ( x − x j ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( x − x i ) 2 ) y i . (4) \begin{split}\begin{aligned} f(x) \sum_{i1}^n \alpha(x, x_i) y_i\\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4} f(x)i1∑nα(x,xi)yii1∑n∑j1nexp(−21(x−xj)2)exp(−21(x−xi)2)yii1∑nsoftmax(−21(x−xi)2)yi.(4) 其中x为查询 x i x_i xi为键 y i y_i yi为值
通过观察可得可以将K的指数部分 − u 2 2 -\frac{u^2}{2} −2u2视为注意力评分函数。 即注意力汇聚的输出可以分为以下三个步骤
通过注意力评分函数计算键 x i x_i xi和x的得分将得分作为softmax函数的输入softmax计算后将得到与键对应的值的概率分布即注意力权重计算注意力权重与值的加权和
引入注意力评分函数的注意力机制框架如图所示
3.2例子
除了高斯核函数K的指数部分外还有加性注意力、缩放点积注意力可作为评分函数
加性注意力
当查询和键是不同长度的矢量使适用
缩放点积注意力
计算效率更高查询和键有相同长度
四、遮蔽softmax
并非所有值都应该被纳入到注意力汇聚中。可以指定一个有效序列长度使masked_softmax滤去超出范围的部分
三四小结
注意力汇聚从参数角度上可分为非参和带参。从结构上可以拆分为评分函数softmax函数或者像Nadaraya-Watson核回归中的一个高斯核整体将注意力汇聚的输出计算可以作为值的加权平均选择不同的注意力评分函数会带来不同的注意力汇聚操作。当查询和键是不同长度的矢量时可以使用可加性注意力评分函数。当它们的长度相同时使用缩放的“点积”注意力评分函数的计算效率更高