当前位置: 首页 > news >正文

做拍卖网站h5技术的网站

做拍卖网站,h5技术的网站,吉首公司网站找谁做,搜索网站显示网页无法访问文 | 舞风小兔编 | 智商掉了一地如何进一步提升大规模Transformer的训练效果#xff1f;Primer给出了答案#xff0c;一起来看看吧#xff01;Transformer是深度学习界的明星模型。由于其具有高度的并行性#xff0c;十分容易在并行计算系统中扩展至超大规模。自然语言处理… 文 | 舞风小兔编 | 智商掉了一地如何进一步提升大规模Transformer的训练效果Primer给出了答案一起来看看吧Transformer是深度学习界的明星模型。由于其具有高度的并行性十分容易在并行计算系统中扩展至超大规模。自然语言处理任务一路见证了Transformer模型规模的爆炸式增长。微软和Nvidia不久前联合发布的Megatron-Turning更是创造了最新记录其参数数目已经达到了恐怖的5300亿。大规模Transformer通过横扫各大任务榜单向所有人展示了“大模型大数据”这一简单方法的高度通用性。在更加有效的深度学习技术出现之前许多已经正在使用Transformer的任务难免都会期待是否拥有一个更大的模型就能够更进一步提升应用任务的效果但训练大规模Transformer的高昂成本也同样令人望而生畏。大规模Transformer让人又爱又恨。本文要介绍的Primer就是在该背景下开展的一个工作。论文标题:Primer: Searching for Efficient Transformers for Language Modeling论文链接:https://arxiv.org/abs/2109.08668论文代码:https://github.com/google-research/google-research/tree/master/primerArxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1029】 下载论文PDF~1 为什么会有Primer针对训练大规模Transformer存在高昂成本的问题作者试图回答是否能够通过模型架构自动搜索技术找到一个高效Transformer变种实现以下目标给定学习效果相比标准Transformer这个新的变种有着更低的训练代价。给定学习代价相比标准Transformer这个新的变种达到更好的学习效果。作者给出的答案就是PrimerPRIMitives searched transformER。2 什么是PrimerPrimer 对Transformer的结构给出了两处修改在下图中用红色圈出。在论文进行的各项实证研究中这两项修改最为鲁棒。论文作者建议Transformer语言模型的使用者如果想尝试改进自己的模型推荐从这两项修改开始。▲Primer对Transformer结构的两处重要修改这两处由遗传算法自动搜索到的修改分别是在Feed Forward 模块FFN部分将原来的ReLU激活修改为Squared ReLU也就是在ReLU之后再添加一个Square运算。作者声称这个小小的修改最为重要十分有助于加速模型在更短时间内收敛到同样的学习效果。在自注意力机制中、、 映射之后添加 Depthwise 卷积称之为Multi-DConv Attention (MDHA)上面两幅图已十分所见即所得地解释了论文的结果。对经常与深度学习算法打交道的同学来说根据这幅图已经可以在1分钟之内修改好自己的Tranformer模型将其变为Primer。然后 保持所有其他因素不变 去试试能否在自己的任务上复现论文的效果在更短的时间内模型收敛到和原来模型同样的精度。作者为确定搜索出的模型结构具有广泛的实用性做了大量的覆盖性实验验证验证变量包括模型参数规模20M到1.9B、训练时长到加速器小时、多个数据集LM1BC4PG19、多个硬件平台TPUv2TPUv3TPUv4 和 V100、将Primer的修改插入多个Transformer 代码库Tensor2Tensor[1], Lingvo[2] 和 T5[3]中的多个模型dense Transformersparse mixture-of-experts Switch Transformer, Synthesizer。在大量的试验中作者发现只有上面两个修改具有广泛的有效性。作者还列举了一些有效但不总是有效的修改给出了他们在实验中的表现共享和的 depthwise 表示共享一部分和映射的映射矩阵由图1中的MDHA后加depthwise 卷积计算得到实验发现大部分时候这个修改对学习效果都是有害的。我们可以看到这是一个令人类专家看来十分奇怪的模型修改很像是一个典型的自动搜索产生的修改方案论文中还给出了类似这样的奇怪修改大部分也都没有能够改进学习代价。归一化层添加位置标准的Transformer实践在自注意力模块Self-Attention和FFNFeed Forward层之前添加归一化层论文作者尝试在自注意力模块之前FFN模块之后添加归一化层这个修改会有帮助但并不总是有帮助。自定义归一化Primer使用自定义归一化 替代这一修改会有帮助并不总是有效。Bottleneck 映射大小的修改将原始Transformer模型隐藏层大小从512维减少到384但将FFN模块的Upwards 映射部分的维度从2048增加到4608收敛效果在模型参数小于35M时有明显的改善但对更大的模型有效性降低。3 Scaling Law 对比由于这篇论文是一篇实验研究文章用了长达35页的篇幅解释了在TensorFlow中进行模型架构搜的设计、搜索空间设计、诸多无规律的修改。阅读这篇文章时研究神经网络架构搜索的读者可以只关注模型搜索空间设计和搜索算法设计部分研究自然语言处理任务本身的读者可以只关注上面两个简单的结论。在这里我们只重点地摘要作者如何通过实验验证Primer能够减少大规模Transformer训练代价这一关键论点。作者对Transformer模型的以下几组变量进行全排列组合1层数、2隐藏层大小 、3FFN 模块upwards projection 比率 产生出模型参数从23M到385M变化的一系列模型。作者在LM1B搜索任务上使用序列长度64batch大小4096 token分别在TPUv2和V100上训练24小时, 用Tensor2Tensor和T5中的几种典型Transformer变种作为对比对象与Primer进行对比。▲35M模型参数下几种Transformer模型与Primer加速因子对比上图绘制了35M参数模型的实验结果以标准Transformer模型训练24小时的学习效果为基准横轴是几种Transformer模型变种纵轴是各个变种达到基准效果的加速比从中可以看到Primer在所有实验组中都有1.7倍以上的加速率。▲几种Transformer模型与Primer scaling曲线对比上图又进一步展示了Primer在所有模型规模下的实验数字。横轴是时间纵轴是验证集上的损失不同颜色的曲线代表不同的模型规模。左图是对所有Transformer变种用MSE实验去拟合出达到给定精度的最佳模型大小绘制成二维线图也就是scaling law[4]曲线。可以看到Primer的scaling曲线在最下方这意味着在所有模型大小情况下Primer都能更快地达到指定学习精度。4 小结与讨论尽管这篇论文长达35页但是关键结论十分简单而剩下的篇幅都在阐述如何进行模型搜索和在不同任务上重复验证Primer能否节约Transformer的训练代价对不关心这些细节的实践者完全可以跳过作者的长篇大论来直接使用作者的结论。关于这两个由遗传算法自动搜索到的修改第一个squared ReLU 在其它学习任务中已经被多次使用能够进一步增强ReLU的激活值或许容易被人类专家注意和想到。第二个卷积能增加特征向量的局部稳定性由于 projection已经足够简洁在和 projection之后添加depthwise卷积可能是一个连人类专家也不容易主动尝试的想法被自动搜索找到了。读过这篇论文Primer依然可能有一定的限制。这里指出值得注意的三点。尽管Primer的目标是减少大规模Transformer训练的代价但是文章实验的大模型也远远小于GPT-3当模型参数进一步提升时这两个修改是否有效也未经作者的验证。可能还是在从侧面说明尽管作者想使用自动搜索模型结构这项技术去减少Transformer的训练代价但进行实验本身的代价依然过于昂贵。作者自己也指出实验只在自回归语言模型上进行而初步测试表明了这两项修改应用于其它类型任务时并不总是有效也就是说这两项修改有可能只适用于部分任务。一个小小的遗憾是作者在搜索空间构造时并没有对自注意力机制这样的高阶模块的潜在变种进行搜索毕竟这是Transformer的核心。由于这一步也存在着大量的选择空间或许也潜藏着压缩Transformer模型训练代价的可能性。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Ashish Vaswani, Samy Bengio, Eugene Brevdo, Francois Chollet, Aidan N. Gomez, Stephan Gouws, Llion Jones, Łukasz Kaiser, Nal Kalchbrenner, Niki Parmar, Ryan Sepassi, Noam Shazeer, and Jakob Uszkoreit. Tensor2tensor for neural machine translation. arXiv preprint arXiv:1803.07416, 2018. (https://arxiv.org/pdf/1803.07416.pdf)[2] Lingvo: A TensorFlow Framework for Sequence Modeling. (https://blog.tensorflow.org/2019/02/lingvo-tensorflow-framework-for-sequence-modeling.html)[3] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. (https://arxiv.org/pdf/1910.10683.pdf)[4] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020. (https://arxiv.org/abs/2001.08361)
http://www.zqtcl.cn/news/320792/

相关文章:

  • 咸宁建设网站海口市网站建设
  • 认识电子商务网站建设技术网站交换链接怎么做?
  • 定制商城网站建设全球搜索引擎排名2021
  • 徐州百度网站快速优化做网站视频图片加载不出来
  • 网站被host重定向处理浙江网新股吧
  • asp国外网站什么页游好玩
  • 高端简约30平米办公室装修广州搜索seo网站优化
  • 海口的网站建设公司wordpress二次元极简主题
  • 南京快速建站公司国家网站域名
  • 兰州装修公司哪家好网站seo推广员招聘
  • 郑州网站推广 汉狮网络易企秀类似的软件
  • 做外单网站成都网页制作公司排名
  • 成都优化网站关键词搜索引擎有哪些平台
  • 福建百川建设有限公司网站郑州手机软件开发公司
  • 盐城企业做网站多少钱88建网站
  • 南京网站制作报价wordpress主题 yusi
  • 北京建网站已备案网站新增接入
  • 做搬家服务网站问卷调查的目的房产网签是什么意思
  • 江苏品牌网站设计美团后台管理系统登录
  • 没有备案的网站会怎么样深圳的互联网公司排名
  • 阿里云 建设网站北京百度竞价托管公司
  • 怎么样做长久的电影网站安卓手机应用市场
  • 网站建设账户搭建济南网络优化哪家专业
  • 宜兴城乡建设局网站wordpress调用logo
  • 让他人建设网站需要提供的材料女生读电子商务好就业吗
  • 北大荒建设集团网站国内开源代码网站
  • 高端企业网站要多少钱中企动力z云邮箱登录
  • 网站建设视频教程百度云那种自行提取卡密的网站怎么做
  • 网站外链建设与维护网站建设客户调研表
  • 海南省建设银行官方网站招聘营销的主要目的有哪些