当前位置: 首页 > news >正文

华大集团 做网站网站回答问题app怎么做

华大集团 做网站,网站回答问题app怎么做,wordpress后太慢,raid管理网站开发原文地址#xff1a;https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求#xff0c;因为它构造了一个注意力矩阵#xff0c;需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性…原文地址https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求因为它构造了一个注意力矩阵需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性为注意力矩阵构建了一个无偏的估计量可以获得线性增长的资源需求量。这一方法超越了注意力机制甚至可以说为下一代深度学习架构打开了思路。自面世以来Transformer 模型已经在多个领域取得了 SOTA 结果包括自然语言处理、图像处理甚至是音乐处理。众所周知Transformer 架构的核心是注意力模块它计算输入序列中所有位置对的相似度得分。然而随着输入序列长度的增加注意力机制本身的问题也越来越突出因为它需要二次方的计算时间来产生所有的相似度得分用来存储这些得分的内存大小也是如此。针对那些需要长距离注意力的应用部分研究者已经提出了一些速度快、空间利用率高的方法其中比较普遍的方法是稀疏注意力。标准的稀疏化技术。然而稀疏注意力方法也有一些局限。首先它们需要高效的稀疏矩阵乘法运算但这并不是所有加速器都能做到的其次它们通常不能为自己的表示能力提供严格的理论保证再者它们主要针对 Transformer 模型和生成预训练进行优化最后它们通常会堆更多的注意力层来补偿稀疏表示这使其很难与其他预训练好的模型一起使用需要重新训练消耗大量能源。此外稀疏注意力机制通常不足以解决常规注意力方法应用时所面临的所有问题如指针网络。还有一些运算是无法稀疏化的比如常用的 softmax 运算。为了解决这些问题来自谷歌、剑桥大学、DeepMind、阿兰 · 图灵研究所的研究者提出了一种新的 Transformer 架构——Performer。它的注意力机制能够线性扩展因此能够在处理长序列的同时缩短训练时间。这点在 ImageNet64 等图像数据集和 PG-19 文本数据集等序列的处理过程中都非常有用。论文链接https://arxiv.org/pdf/2009.14794.pdfPerformer 使用一个高效的线性广义注意力框架generalized attention framework允许基于不同相似性度量核的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR Fast Attention Via Positive Orthogonal Random Features来实现后者能够提供注意力机制的可扩展低方差、无偏估计这可以通过随机特征图分解常规 softmax-attention来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证也可以应用到独立的 softmax 运算。此外该方法还可以和可逆层等其他技术进行互操作。研究者表示他们相信该研究为注意力、Transformer 架构和核方法提供了一种新的思维方式。代码地址https://github.com/google-research/google-research/tree/master/performer论文公布之后Youtube 知名深度学习频道 Yannic Kilcher 对该文章进行了解读。广义的注意力机制在以往的注意力机制中分别对应矩阵行与列的 query 和 key 输入相乘通过 softmax 计算形成一个注意力矩阵以存储相似度系数。值得注意的是这种方法不能将 query-key 生成结果传递给非线性 softmax 计算之后再将其分解为原始的 query 和 key。然而将注意力矩阵分解为原始 query 和 key 的随机非线性函数的乘积是可以的即所谓的随机特征random feature这样就可以更加高效地对相似度信息进行编码。标准注意力矩阵包括每一对 entry 的相似度系数由 query 和 key 上的 softmax 计算组成表示为 q 和 k。常规的 softmax 注意力可以看作是由指数函数和高斯投影定义的非线性函数的一个特例。在这里我们也可以反向推理首先实现一些更广义的非线性函数隐式定义 query-key 结果中其他类型的相似性度量或核函数。研究者基于早期的核方法kernel method将其定义为广义注意力generalized attention。尽管对于大多核函数来说闭式解并不存在但这一机制仍然可以应用因为它并不依赖于闭式解。该研究首次证明了任意注意力矩阵都可以通过随机特征在下游 Transformer 应用中实现有效地近似。实现这一点的的新机制是使用正随机特征即原始 query 和 key 的正直非线性函数这对于避免训练过程中的不稳定性至关重要并实现了对常规 softmax 注意力的更准确近似。新算法 FAVOR通过矩阵相关性实现快速注意力上文描述的分解允许我们以线性而非二次内存复杂度的方式存储隐式注意力矩阵。我们还可以通过分解获得一个线性时间注意力机制。虽然在分解注意力矩阵之后原始注意力机制与具有值输入的存储注意力矩阵相乘以获得最终结果我们可以重新排列矩阵乘法以近似常规注意力机制的结果并且不需要显式地构建二次方大小的注意力矩阵。最终生成了新算法 FAVOR。左标准注意力模块计算其中通过执行带有矩阵 A 和值张量 V 的矩阵乘法来计算最终的预期结果右通过解耦低秩分解 A 中使用的矩阵 Q′和 K′以及按照虚线框中指示的顺序执行矩阵乘法研究者获得了一个线性注意力矩阵同时不用显式地构建 A 或其近似。上述分析与双向注意力即非因果注意力相关其中没有 past 和 future 的概念。对于输入序列中没有注意前后 token 的单向即因果注意力而言研究者稍微修改方法以使用前缀和计算prefix-sum computation它们只存储矩阵计算的运行总数而不存储显式的下三角常规注意力矩阵。左标准单向注意力需要 mask 注意力矩阵以获得其下三角部分右LHS 上的无偏近似可以通过前缀和获得其中用于 key 和值向量的随机特征图的外积outer-product前缀和实现动态构建并通过 query 随机特征向量进行左乘计算以在最终矩阵中获得新行new row。性能研究者首先对 Performer 的空间和时间复杂度进行基准测试结果表明注意力的加速比和内存减少在实证的角度上近乎最优也就是说这非常接近在模型中根本不使用注意力机制的情况。在以时间T和长度L为度量的双对数坐标轴中常规 Transformer 模型的双向 timing。研究者进一步证明使用无偏 softmax 近似该 Performer 模型在稍微进行微调之后可以向后兼容预训练 Transformer 模型从而在提升推理速度的同时降低能耗并且不需要从头训练预先存在的模型。在 One Billion Word Benchmark (LM1B) 数据集上研究者将原始预训练 Transformer 的权重迁移至 Performer 模型使得初始非零准确度为 0.07橙色虚线。但在微调之后Performer 的准确度在很少的梯度步数之后迅速恢复。应用示例蛋白质建模蛋白质具有复杂的 3D 结构是生命必不可少的拥有特定功能的大分子。和单词一样蛋白质可以被看做线性序列每个字符代表一种氨基酸。将 Transformers 应用于大型未标记的蛋白质序列语料库生成的模型可用于精确预测折叠功能大分子。正如该研究理论结果所预测的那样Performer-ReLU 在蛋白质序列数据建模方面表现良好而 Performer-Softmax 与 Transformer 性能相媲美。Performer 在蛋白质序列建模时的性能。下面可视化一个蛋白质 Performer 模型该模型使用基于 ReLU 的近似注意力机制进行训练。研究者发现Performer 的密集注意力近似有可能捕捉到跨多个蛋白质序列的全局相互作用。作为概念的证明研究者在串联蛋白长序列上训练模型这使得常规的 Transformer 模型内存过载。但由于具有良好的空间利用效率Performer 不会出现这一问题。左从注意力权重估计氨基酸相似性矩阵。该模型可以识别高度相似的氨基酸对例如 (D,E) 和 (F,Y)。Performer 和 Transformer 在长度为 8192 的蛋白质序列上的性能。随着 Transformer 的频繁跨界越来越多的研究者开始关注其内存占用和计算效率的问题比如机器之心前段时间介绍的《抛弃注意力比 EfficientNet 快 3.5 倍类 Transformer 新模型跨界视觉任务实现新 SOTA 》。在那篇文章中研究者提出了一种名为「lambda」的层这些层提供了一种捕获输入和一组结构化上下文元素之间长程交互的通用框架。类似的改进还在不断涌现我们也将持续关注。参考链接http://ai.googleblog.com/2020/10/rethinking-attention-with-performers.html
http://www.zqtcl.cn/news/288419/

相关文章:

  • 大学生网站设计作业动画ftp发布asp.net网站
  • 网站建设哪家企业好站内优化怎么做
  • 萌宝宝投票网站怎么做网上商城推广方法
  • 网站建设规划书样板社交电商
  • 网站怎么做直播功能吗水库信息化网站建设
  • c语言做网站账号登录系统外资公司代理注册
  • 建站公司塔山双喜做饲料推广哪个网站好
  • php网站后台入口拼多多海外跨境电商入驻流程
  • 0731网站平面logo设计公司
  • 网站设计制作报价图片欣赏wordpress福利
  • 网站上有什么作用自己做网站需要学什么
  • 在哪里做马可波罗网站wordpress中文站cn
  • 威海外贸建站制作游戏的平台
  • 网站栏目策划 有思想的新闻网站建设开发的流程
  • 网站描述修改潍坊百度网站排名
  • 网站开发设计的技术网站开发可能存在的困难
  • 单片机做网站网站地图那么建设
  • 手机版网站建设软件wordpress主题开发ide
  • 网站建设的技术有哪些内容网站推广优化排名
  • 网站开发用jsp网站开发需要什么技术
  • 网站打开404错误怎么解决网站开发树形图
  • 好的建设网站公司哪家好湖南省做网站的
  • 网站怎么上传网站建设可行性分析表
  • 东营做网站优化价格企业网站开发一般多少钱
  • 高端网站设计公司排名邢台哪里有做网站的
  • 广州网站开发 英诺科技营销式网站建设
  • 网站存在的缺陷编程的基础知识
  • flash同视频做网站天津建设工程信息网投标信息系统
  • 湛江做网站开发手机网址大全主页网址
  • 平面网站设计如何租用网站服务器