当前位置: 首页 > news >正文

做网站的软件有些什么建设公司门户网站

做网站的软件有些什么,建设公司门户网站,最便宜的购物app,怎么做网络游戏推广一、说明 DeFINE#xff0c;是华盛顿大学和艾伦人工智能开发的自然语言处理工具#xff0c;可以处理的范围是#xff1a;NLP、语言模型、LM、神经机器翻译、NMT、变压器、变压器-XL等#xff1b;本文对token-bedding进行生成。 借助DeFINE#xff0c;Transformer-XL可以在… 一、说明 DeFINE是华盛顿大学和艾伦人工智能开发的自然语言处理工具可以处理的范围是NLP、语言模型、LM、神经机器翻译、NMT、变压器、变压器-XL等本文对token-bedding进行生成。         借助DeFINETransformer-XL可以在低n维空间而不是高m维空间中学习输入嵌入和输出分类表示从而显着减少参数同时对性能的影响最小。         DeFINE用于神经序列建模的深度分解输入令牌嵌入 提出了一种具有新型跳跃连接的分层结构允许使用低维输入和输出层减少总参数和训练时间同时提供与现有方法相似或更好的性能。DeFINE可以很容易地整合到新的或现有的序列模型中。 二、分层组转换HGT 使用N 3的不同转换层学习令牌表示。a 线性变换 b 组线性变换 GLT c HGT 2.1. 动机和整体想法 大多数NLP研究使用浅层网络来学习令牌嵌入的良好近似。DeFINE一种在高维空间中学习深度令牌表示的有效方法只需最少的附加参数。该方法基于Map-Expand-ReduceMER原理首先将输入令牌映射到低维嵌入向量然后使用计算高效的分层组变换HGT将其转换为高维空间。然后将生成的向量转换为低维空间。通过使用在输入层和输出层之间建立直接链接的新连接模式促进要素重用并改进梯度流。 2.2. 映射-扩展-缩减 MER MER的第一步Map类似于标准序列模型。 词汇表V中的每个输入标记都映射到大小为n×1的固定维度向量ei。然而在本文中n的值很小比如64或128而典型的尺寸为400或更大。下一步 Expand将 ei 作为输入并应用分层群变换 HGT 来生成大小为 k×1 的非常高维向量 ^ei其中 kn。最后一步Reduce将向量^ei投影到较低维空间以生成给定输入令牌大小为m×1的最终嵌入向量eo。eo的尺寸可以与上下文表示模型例如LSTM或变压器相匹配从而使DeFINE可以作为这些模型的输入层。 2.3. 分层组转换 HGT HGT由N层的堆栈组成。HGT 从第一层的 gmax 组开始然后在每个级别将组数减少 2 倍。群线性变换GLT最初是为了提高LSTM的效率而引入的也稀疏了全连接层中的连接如上所示。然而某个组的输出仅来自输入的一小部分因此学习弱表示。形式上在 HGT 中第 l 层从 ei 到 ^ei 的转换为 哪里 Wl 是在第 l 层学习的权重FG 是群变换函数。组变换将输入拆分为 g 组每个组都使用线性变换独立处理。然后将这些组的输出连接起来以产生最终输出。 三.  DeFINE的单元         N 2 的 DeFINE 单元它使用 HGT 有效地学习输入令牌表示并与输入直接连接以最大化信息流。 DeFINE单元由HGT变换组成。使用一个简单的新跳过连接在 HGT 中的任何层与输入 ei 之间建立直接链接如上所述。输入和输出使用拆分层分块到 gl 组中。然后混合分块的输入和输出向量。 此机制可有效地促进输入要素重用。此外它还与输入 ei 建立直接链接允许梯度通过多条路径回流到输入从而提高性能。 输入令牌和 DeFINE 单元 eo 输出之间的映射可以使用查找表进行缓存从而产生一种允许在推理时跳过 DeFINE 单元计算的机制。 堆叠转换层 FG第 A.1 节的不同方法用于学习深度令牌表示。 此图总结了具有不同设置的不同体系结构。 四、 结果 4.1. LSTM 模型 基于RNN的语言模型在WT-103和PTB数据集上的性能。 a所提出的方法进一步提高了约3分的性能同时只学习了1.25%或0万个的参数。 bDeFINE的深度从3层缩放到11层。性能进一步提高了 6 个百分点为具有更少参数的现有基于 RNN 的方法提供了有竞争力的性能例如参数是 Merity 等人 1a 的 3/2018。 c所提出的方法将AWD-LSTM的性能提高了4个百分点同时减少了4万个参数。 4.2. 变压器模型 Transformer-XL在Wikitext-103数据集上的性能。DeFINE 用于 N 3、k 4096 和 m 384。 所提出的方法能够获得与Dai等人2019相似的性能同时学习的参数减少了10M。 带有DeFINE的变压器XL能够实现与具有投影嵌入的标准变压器-XL相当的困惑度同时使用的参数明显更少。 4.3. 机器翻译 基于变压器的模型有和没有DeFINE在神经机器翻译任务上的结果。 不同因子分解方法的不同序列模型的性能比较。 对于语言建模性能是通过困惑来衡量的;对于机器翻译使用 BLEU。 OpenNMT用于变压器模型训练。 DeFINE将无检查点平均值的变压器模型的性能提高了2%同时将参数总数减少了26%这表明DeFINE是有效的。 4.4. 进一步分析和消融 Transformer-XL中使用的不同嵌入层的相关图m×m在WikiText-128上n 384和m 103。 DeFINE能够有效地近似标准嵌入矩阵。 Transformer-XL使用 不同分解方法的性能有和没有ShuNakayama2017的压缩方法。 DeFINE 嵌入可以像标准嵌入一样压缩而不会损失性能。 WikiText-103数据集上不同变换之间的比较。 左HGT将困惑度提高了约5分同时学习了与GLT相似数量的参数。 右此外当使用直接连接时性能进一步提高了 2.9 点。 缩放深度和宽度对WT-103的影响。 对于相同的 k 值语言模型的性能随着深度 N 的增加而提高。但是当我们缩放深度 N 的固定值的宽度 k 时性能并没有提高。 WT-103上的不同设置a不同跳跃连接的影响。b 减少市面汇率作业的影响 左图提议的跳过连接更有效。 右有和没有这个归约步骤的性能是相似的但是没有归约步骤的模型会学习更多的参数。 作者认为ELMo和BERT等预训练语言模型架构可以从整合DeFINE中受益以提高效率和性能。
http://www.zqtcl.cn/news/226158/

相关文章:

  • 如何在微信平台做购买网站广安 网站建设
  • 怎么建立和设计网站html5高端酒水饮料企业网站模版
  • 网站排版尺寸wordpress 生成目录
  • 网站建设属于什么费用wordpress破解管理员帐号
  • 东莞市官网网站建设专业wordpress主题开发
  • 常熟做网站优化合肥百度竞价推广代理公司
  • 专业做招聘的网站人气最旺的传奇手游
  • 西安网站建设新闻柳市专业网站托管
  • 网站怎么做移动端织梦网暂时关闭网站
  • 上海响应式网站建设企业seo 优化是什么
  • pc主页网站建设专业公司网站建设服务公司
  • js 取网站域名做服装团购有哪些网站有哪些
  • ysl网站设计论文网站快照回档
  • 网站建设成本计划汕头网站开发服务
  • 云朵课堂网站开发怎么收费wordpress安装完不显示
  • 网站建设进什么分录wordpress5.0 安装
  • 网站建设丷金手指专业十五户县规划建设和住房保障局网站
  • 普通门户网站开发价格怎么查公司信息
  • 广告传媒公司网站怎么做高品质的网站开发公司
  • 建设品牌型网站制作一起做玩具网站
  • 中山品牌网站设计自建站怎么做
  • 最牛免费网站建设wordpress 相册功能
  • 网站开发是培训网站开发毕业设计评审表
  • 网站对网友发帖隐私做处理网站怎么上传模板
  • 网站建设大神级公司网站 百度地图
  • 网站营销定义高端网站建设免费分析
  • 韩国网站建站html5修改器下载
  • 网站做联盟广告能赚钱吗如何制作微信小程序教程
  • 免费网页代理浏览器1广州seo效果
  • 网站开发所需基础知识学网络营销有前途吗