当前位置: 首页 > news >正文

外贸网站建设怎么制作重庆百度seo关键词优化

外贸网站建设怎么制作,重庆百度seo关键词优化,Ie8网站后台编辑文章,网站空间网站虚拟空间文章目录 一、注意力提示1.1概念1.2生活中的注意力提示1.3注意力机制基本框架小结 二、注意力汇聚2.1概念2.2非参注意力汇聚2.2.1平均汇聚2.2.2Nadaraya-Waston核回归 2.3通用注意力汇聚公式2.4带参数注意力汇聚小结 三、注意力评分函数3.1概念3.2例子 四、遮蔽softmax三四小结… 文章目录 一、注意力提示1.1概念1.2生活中的注意力提示1.3注意力机制基本框架小结 二、注意力汇聚2.1概念2.2非参注意力汇聚2.2.1平均汇聚2.2.2Nadaraya-Waston核回归 2.3通用注意力汇聚公式2.4带参数注意力汇聚小结 三、注意力评分函数3.1概念3.2例子 四、遮蔽softmax三四小结 一、注意力提示 我们使用偏日常的注意力提示引入注意力机制 1.1概念 查询 query 自主性的提示 随意的 键 key 非自主性的提示 不随意的 值 value 感觉输入 值和键是成对的 注意此处的随意/不随意中的意是意志的意 1.2生活中的注意力提示 非自主性提示 自主性提示 人的意志就是自主性的提示引导注意力指向了书。当无意识时由于突出的非自主性提示(杯子)引导注意力指向了杯子。 此时人的意志为query杯子、书等物品为key最终注意力的去向为value 1.3注意力机制基本框架 注意力机制通过注意力汇聚将查询自主性提示和键非自主性提示结合在一起实现对值感官输入的选择倾向 小结 受试者使用非自主性和自主性提示有选择性地引导注意力。前者基于突出性后者则依赖于意识。注意力机制与全连接的层或汇聚层的区别增加了自主性提示 二、注意力汇聚 2.1概念 查询自主提示和键非自主提示之间的交互形成了注意力汇聚注意力汇聚有选择地聚合了值感官输入以生成最终的输出 2.2非参注意力汇聚 2.2.1平均汇聚 公式 f ( x ) 1 n ∑ i 1 n y i (1) f(x){1\over n}\sum_{i1}^n y_i \tag{1} f(x)n1​i1∑n​yi​(1) 结果 观察可知查询-键对越接近注意力汇聚的注意力权值越高 缺点 忽略了输入 x x x 2.2.2Nadaraya-Waston核回归 改进 Nadaraya-Waston核回归比平均汇聚更优越的地方在于其考虑了输入 x x x的位置。根据输入位置x对数据y进行加权公式 f ( x ) ∑ i 1 n K ( x − x i ) ∑ j 1 n K ( x − x j ) y i , (2) f(x) \sum_{i1}^n \frac{K(x - x_i)}{\sum_{j1}^n K(x - x_j)} y_i, \tag{2} f(x)i1∑n​∑j1n​K(x−xj​)K(x−xi​)​yi​,(2) Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。优点 回归具有一致性如果有足够的数据模型将收敛到最优解(非参方法的特点) 注意 其中K为高斯核函数可自定义 2.3通用注意力汇聚公式 受K核的启发可以将注意力汇聚公式重写为更通用的形式适用于非参、带参 f ( x ) ∑ i 1 n α ( x , x i ) y i , (3) f(x) \sum_{i1}^n \alpha(x, x_i) y_i,\tag{3} f(x)i1∑n​α(x,xi​)yi​,(3) 其中x是查询 ( x i , y i ) (x_i,y_i) (xi​,yi​)是键值对。 比较平均汇聚(1)和通用公式(3) 注意力汇聚是 y i y_i yi​的加权平均。 将查询x和键 x i x_i xi​之间的关系建模为 注意力权重 α ( x , x i ) \alpha(x,x_i) α(x,xi​) 这个权重将被分配给每一个对应值 y i y_i yi​。 对于任何查询模型在所有键值对注意力权重 α ( x , x i ) \alpha(x,x_i) α(x,xi​)都是一个有效的概率分布 它们是非负的并且总和为1。 例子 可以自定义一个高斯核为 K ( u ) 1 2 π exp ⁡ ( − u 2 2 ) K(u) \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}) K(u)2π ​1​exp(−2u2​) 将其带入(3)中可以得到注意力汇聚公式如(4) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ⁡ ( − 1 2 ( x − x i ) 2 ) ∑ j 1 n exp ⁡ ( − 1 2 ( x − x j ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( x − x i ) 2 ) y i . (4) \begin{split}\begin{aligned} f(x) \sum_{i1}^n \alpha(x, x_i) y_i\\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4} f(x)​i1∑n​α(x,xi​)yi​i1∑n​∑j1n​exp(−21​(x−xj​)2)exp(−21​(x−xi​)2)​yi​i1∑n​softmax(−21​(x−xi​)2)yi​.​​(4) 在(4)中给出的查询x越接近某个键 x i x_i xi​则分配给这个键对应值 y i y_i yi​的注意力权重就会越大也就获得了更多的注意力。 特别的Nadaraya-Watson核回归是一个非参数模型。因此将K带入后的通用注意力汇聚模型也为非参的模型。如果带入一个带参模型则为带参的注意力汇聚模型。 2.4带参数注意力汇聚 将(3)带入一个带参模型则为带参的注意力汇聚模型。如公式(5) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ⁡ ( − 1 2 ( ( x − x i ) w ) 2 ) ∑ j 1 n exp ⁡ ( − 1 2 ( ( x − x j ) w ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( ( x − x i ) w ) 2 ) y i . \begin{split}\begin{aligned}f(x) \sum_{i1}^n \alpha(x, x_i) y_i \\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}((x - x_j)w)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}\end{split} f(x)​i1∑n​α(x,xi​)yi​i1∑n​∑j1n​exp(−21​((x−xj​)w)2)exp(−21​((x−xi​)w)2)​yi​i1∑n​softmax(−21​((x−xi​)w)2)yi​.​​ 小结 注意力汇聚可以分为非参数型和带参数型Nadaraya-Watson核回归具有非参数的注意力机制的机器学习范例Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数 至此注意力机制的基本概念介绍完毕接下来介绍注意力机制的进阶概念 三、注意力评分函数 3.1概念 在通用注意力汇聚公式介绍时我们自定义了一个高斯核并将其带入通用注意力汇聚公式中 K ( u ) 1 2 π exp ⁡ ( − u 2 2 ) K(u) \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}) K(u)2π ​1​exp(−2u2​) 将其带入(3)中可以得到注意力汇聚公式如(4) f ( x ) ∑ i 1 n α ( x , x i ) y i ∑ i 1 n exp ⁡ ( − 1 2 ( x − x i ) 2 ) ∑ j 1 n exp ⁡ ( − 1 2 ( x − x j ) 2 ) y i ∑ i 1 n s o f t m a x ( − 1 2 ( x − x i ) 2 ) y i . (4) \begin{split}\begin{aligned} f(x) \sum_{i1}^n \alpha(x, x_i) y_i\\ \sum_{i1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\ \sum_{i1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4} f(x)​i1∑n​α(x,xi​)yi​i1∑n​∑j1n​exp(−21​(x−xj​)2)exp(−21​(x−xi​)2)​yi​i1∑n​softmax(−21​(x−xi​)2)yi​.​​(4) 其中x为查询 x i x_i xi​为键 y i y_i yi​为值 通过观察可得可以将K的指数部分 − u 2 2 -\frac{u^2}{2} −2u2​视为注意力评分函数。 即注意力汇聚的输出可以分为以下三个步骤 通过注意力评分函数计算键 x i x_i xi​和x的得分将得分作为softmax函数的输入softmax计算后将得到与键对应的值的概率分布即注意力权重计算注意力权重与值的加权和 引入注意力评分函数的注意力机制框架如图所示 3.2例子 除了高斯核函数K的指数部分外还有加性注意力、缩放点积注意力可作为评分函数 加性注意力 当查询和键是不同长度的矢量使适用 缩放点积注意力 计算效率更高查询和键有相同长度 四、遮蔽softmax 并非所有值都应该被纳入到注意力汇聚中。可以指定一个有效序列长度使masked_softmax滤去超出范围的部分 三四小结 注意力汇聚从参数角度上可分为非参和带参。从结构上可以拆分为评分函数softmax函数或者像Nadaraya-Watson核回归中的一个高斯核整体将注意力汇聚的输出计算可以作为值的加权平均选择不同的注意力评分函数会带来不同的注意力汇聚操作。当查询和键是不同长度的矢量时可以使用可加性注意力评分函数。当它们的长度相同时使用缩放的“点积”注意力评分函数的计算效率更高
http://www.zqtcl.cn/news/868780/

相关文章:

  • 做优化网站注意什么开发者模式开着好不好
  • 网站顾客评价网站中怎么做网站统计
  • 网站建设安全措施表白网站是怎么做的
  • 一个服务器可以做几个网站百度北京公司地址全部
  • 武侯区网站建设哪里好点个人社保缴费比例是多少
  • 创建属于自己的网站定制应用软件有哪些
  • 网站建设类岗位建设工程施工合同示范文本2023最新版
  • 建站设计公司wordpress 跨域 cros
  • 做网站的公司哪好工程设计东莞网站建设技术支持
  • 虹口网站开发开发公司设计管理部绩效考核
  • 网站改版升级通知国外服务器公司有哪些
  • 做网站的s标的软件深圳网站建设 湖南岚鸿
  • 设计网站建设的合同书公司装修合同范本
  • 门户网站的好处企业邮箱系统
  • 重庆企业建站公司有那些网站做结伴旅游的
  • 创意营销策划案例网站网页制作及优化
  • 网站上动画视频怎么做的建设兵团12师教育局网站
  • 博客网站开发思维导图app网站制作公司
  • 池州网站建设有哪些公司兴义网站seo
  • seo优化网站模板网站建设的七大优缺点
  • 天猫国际采取的跨境电商网络营销方式关键词排名优化公司推荐
  • 亳州建设网站做网站文字怎么围绕图片
  • 网站开发 项目计划外链建设给网站起的作用
  • 你好南京网站网站开发实施步骤和说明
  • 文化共享工程网站建设情况wordpress菠菜插件
  • 网站大气是什么意思哈尔滨做网站电话
  • 公司网站站群是什么化妆品网站设计欣赏
  • 网站公司未来计划ppt怎么做平潭做网站
  • 做网站和推广工资多少招聘网站建设价格
  • 网站建设 响应式 北京网架公司十大排名榜