当前位置: 首页 > news >正文

网站策划案内容杭州百度做网站多少钱

网站策划案内容,杭州百度做网站多少钱,网站 网安备案查询,如何提升网站排名链接到文 — https://arxiv.org/pdf/2010.11929.pdf 一、说明 如今#xff0c;在自然语言处理#xff08;NLP#xff09;任务中#xff0c;转换器已成为goto架构#xff08;例如BERT#xff0c;GPT-3等#xff09;。另一方面#xff0c;变压器在计算机视觉任务中的使用… 链接到文 — https://arxiv.org/pdf/2010.11929.pdf 一、说明 如今在自然语言处理NLP任务中转换器已成为goto架构例如BERTGPT-3等。另一方面变压器在计算机视觉任务中的使用仍然非常有限。大多数研究人员直接使用卷积层或者将某些注意力块与卷积块一起添加到计算机视觉应用如XceptionResNetEfficientNetDenseNetInception等中。关于视觉转换器ViT的论文在图像序列上实现了纯变压器模型而无需卷积块来对图像进行分类。本文展示了ViT如何在各种图像识别数据集上获得比大多数最先进的CNN网络更好的结果同时使用更少的计算资源。 二、视觉变压器 ViT 转换器是对数据序列进行操作的网络例如一组单词。这些单词集首先被标记化然后输入到转换器中。转换器添加 Attention二次运算 — 计算每对标记化单词之间的成对内积。随着字数的增加操作数也会增加。 因此图像更难在变形金刚上训练。图像由像素组成每个图像可以包含数千到数百万个像素。因此在转换器中每个像素将与图像中的每个其他像素进行成对操作。在大小为 500*500 像素的图像中即 500^2因此注意力机制将花费 500^2^2 次操作。这是一项艰巨的任务即使有多个 GPU。因此对于图像研究人员大多使用某种形式的局部注意力像素聚类而不是使用全局注意力。 ViT的作者通过使用全局注意力来解决这个问题但不是在整个图像上而是在多个图像补丁上。因此首先将大图像分成多个小块例如 16*16 像素。如图 1 所示。 图1.图像分为多个补丁来源原始论文中的图像 然后将这些映像修补程序展开为一系列映像如图 2 所示。这些图像序列具有位置嵌入。 图2.图像补丁展开成一系列图像来源原始论文中的图像 最初变压器不知道哪个补丁应该去哪里。因此位置嵌入有助于变压器了解每个补丁应该适合的位置。在论文中作者使用了简单的编号123...n以指定补丁的位置如图 3 所示。这些不仅仅是数字而是可学习的向量。也就是说数字 1 不直接使用而是存在一个查找表其中包含表示补丁位置的每个数字的向量。因此对于第一个补丁从表中抓取第一个矢量并与补丁一起放入变压器中。同样对于第二个补丁从表中抓取第二个矢量并与第二个补丁一起放入变压器中依此类推。如图 2 所示。 图3.带有位置嵌入的补丁来源图片来自原始论文 图4.位置嵌入作为向量表示来源作者创建的图像 映像修补程序是小映像16*16 像素。这在某种程度上需要以一种变压器理解它的方式馈送。一种方法是将图像展开为 16*16 256 维向量。然而该论文的作者使用了线性投影。这意味着有一个矩阵表示为“E”嵌入。获取单个补丁并首先解卷成线性向量。然后将该向量与嵌入矩阵 E 相乘。然后将最终结果与位置嵌入一起馈送到变压器。 然后将所有补丁线性投影及其单独的位置嵌入送入变压器编码器。该变压器是标准的变压器架构您只需要注意 - 纸。 还有一个额外的可学习嵌入标记为位置零如图 5 所示。此嵌入的输出用于最终对整个图像进行分类。 图5.整个ViT架构带有额外的可学习嵌入 - 用红色标记最左边的嵌入来源原始论文的图片 三、结果 表1显示了ViT与各种数据集上最先进的CNN架构的结果比较。ViT是在JFT-300数据集上进行预训练的。下面的结果表明在所有数据集上ViT的表现都优于基于ResNet的架构和EfficentNet-L2架构在嘈杂的学生权重上预训练。这两种模型都是当前最先进的CNN架构。在表1中ViT-H指的是ViT-Huge32层ViT-L指的是ViT-Large24层。ViT-H/L 后面的数字 14 和 16 表示从每个图像创建的补丁大小14*14 或 16*16。 该表还显示与其他 2 个 CNN 模型相比ViT 需要的计算资源要少得多。 表 1.ViT结果与各种图像数据集上其他CNN架构的比较来源原始论文中的表格 图6显示了变压器在对各种图像进行分类时给予的注意。 图6从输出标记到输入空间的注意力机制来源原始论文图片 四、结论 4.1 视觉变压器是否会在计算机视觉任务中取代CNN 到目前为止CNN已经在计算机视觉任务中占据主导地位。图像基于这样的想法即一个像素依赖于其相邻像素下一个像素依赖于其相邻像素颜色、亮度、对比度等。CNN对这个想法的研究并在图像的补丁上使用过滤器来提取重要的特征和边缘。这有助于模型仅从图像中学习必要的重要特征而不是图像每个像素的细节。 但是如果将整个图像数据馈送到模型中而不仅仅是过滤器可以提取的部分或它认为重要的部分则模型表现更好的机会更高。这正是视觉转换器内部正在发生的事情。这可能是在这种情况下视觉变压器比大多数CNN型号工作得更好的原因之一。 4.2 但这是否意味着变压器将来将在计算机视觉任务中取代CNN 好吧答案是不会那么快。就在几天前EfficientNet V2型号发布其性能甚至比Vision Transformers更好。这只是意味着现在我们可以期待来自两种类型CNN和变形金刚的新架构将在不久的将来推出更新更好更高效的模型。
http://www.zqtcl.cn/news/663434/

相关文章:

  • 用软件做的网站权限管理如何让自己的网站被百度收录
  • 简历做的很棒的网站杭州公司网站建设电话
  • 购买腾讯云主机可以直接做网站舒兰网站建设
  • 环保主题静态网站php 手机网站源码
  • 做网站找哪家好要钱吗小程序开发合同
  • 速成美站东莞网站建设 包装材料
  • 丹阳网站建设案例自己做个网站怎么赚钱
  • 净水机企业网站源码浏览器下载安装2022最新版
  • 高端网站建设四川网页版微信怎么下载
  • 青岛做网站皆赴青岛博采wordpress怎么改密码忘记
  • 深圳最好的网站建设广西论坛网站建设
  • html5网站设计网站建设 广西
  • 顺德手机网站设计价位网站开发学习流程图
  • 班级网站设计合肥蜀山网站开发
  • 杭州网站建设培训ck播放器整合WordPress
  • 网站建设是什么软件品牌策划公司哪家好推荐
  • 网站转跳怎么做餐饮vi设计
  • 刘连康seo培训哪家强网站优化推广平台
  • 网站推广内容滁州做网站的
  • 黄山做网站公司山东省住房和城乡建设厅举报电话
  • 中医科网站建设素材上海文明城市建设网站
  • html课程教学网站模板手机微信小程序开发教程
  • 用电脑做兼职的网站比较好食品网站建设网站定制开发
  • 网站开发 加密保护小程序制作开发进度表
  • 深圳坪山站外贸展示型网站建设
  • 手机端自定义做链接网站济南网站制作方案
  • 软件网站是怎么做的帮别人做网站赚多少钱
  • 纯静态网站 搜索功能佛山网站建设 奇锐科技
  • 四川省建设厅官方网站联系电话自己网站做虚拟币违法吗
  • 同城招聘网站自助建站2014 网站建设