当前位置: 首页 > news >正文

做数学题挣钱的网站广西建筑特种作业证件查询官网

做数学题挣钱的网站,广西建筑特种作业证件查询官网,做网站选择虚拟主机好是服务器,丽江市住房建设局网站文 | 小轶编 | 夕小瑶背景Google Brain团队发布的一篇最新论文在外网引发热议#xff0c;或将成为Deep Learning发展历程上里程碑式的工作。它所讨论的#xff0c;是所有AI行业者都要面对的——Deep Learning中的优化问题。也就是#xff0c;如何更好地训练一个模型。深度模… 文 | 小轶编 | 夕小瑶背景Google Brain团队发布的一篇最新论文在外网引发热议或将成为Deep Learning发展历程上里程碑式的工作。它所讨论的是所有AI行业者都要面对的——Deep Learning中的优化问题。也就是如何更好地训练一个模型。深度模型的训练过程是非常困难的常见的挑战包括陷入局部极小值、梯度消失/爆炸、长期依赖long dependency等等。但对于大多数算法工程师来说其实并没有这么复杂。因为学术界早已陆续提出了许多卓有成效的优化器比如AdaGrad、Adam、Momentum等等都可以一定程度解决上述种种问题。而算法工程师搭完模型后需要做的只有一件事——调参 :)如果说深度学习的兴起为算法工程师省去了繁琐的特征工程特征设计与特征选择今天介绍的Google这篇工作就是致力于为大家省去繁琐的“调参工程”优化器设计与优化器选择。深度学习用大量的训练数据替代了特征工程同样的道理这篇工作致力于用大量训练任务和模型来替代人工设计的优化器Adam、Momentum等这种以任务和模型为食的general-purpose的优化器模型就称之为learned optimizer可广泛适用于各类任务无需手动调节优化器参数如学习率batch size...。实验不仅证明了learned optimizer的普适性更是发现了这种优化器的一些惊人特性。比如它甚至可以根据训练过程中的validation loss隐性地做到正则化规约。最令人惊叹的是该优化器甚至可以用来从头训练一个新的general-pupose优化器——也就是说这是一个可以自己优化自己的优化器论文题目《Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves》论文链接:https://arxiv.org/pdf/2009.11243.pdfArxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1020】 下载论文PDF~方法接下来我们就来看看这个神仙优化器是如何训出来的。在探讨其具体模型结构之前我们先来理清楚优化器训练所需要的是什么样的数据集以及目标函数是什么。优化器训练的数据集learned optimizer(下文简称)的训练所需要的每个训练样本x都是一个需要在某任务上训练的深度学习模型样本的标签y则是该模型在其对应任务上的开发集loss即训练集为:对于数据集里的每个训练样本模型都可以采用不同的模型结构用于完成不同的任务称为 inner-task有属于自己的数据集称为 inner-dataset比如可能是一个用于文本分类的RNN,用的inner-dataset是YELP-5可能是一个做图像分类的CNN用的inner-dataset是数据集CIFAR-10作者实际共设置了 6000 个不同种类的模型。涵盖了RNNs、CNNs、mask auto regressive flows、全连接网络、语言模型、VAE、simple 2D test function、quadratic bowls等...优化器训练的目标函数我们都知道通常一个深度学习模型的训练就需要极大的算力支撑。而此处令人咋舌的是按照上述设定我们需要完成6000个模型的训练才能为learned optimizer完成1轮训练。的一轮训练过程大致如下图所示为说明得更加清楚图中采用的是full batch进行参数更新也就是每个batch直接包含全部样本先用训练n个理想情况下每个应该一直训练到收敛但考虑到算力的问题实际上训练240~360个step就停止了每个都有自己的inner-dataset我们在它的inner-dataset的验证集上计算的损失函数的损失函数即为所有的的平均用的损失函数对其进行参数更新优化器的结构其实learned optimizer的概念并不是在这篇论文中首次提出来的不过论文作者argue了learned optimizer的结构和优化器训练所基于的任务集都会非常非常影响最终learned optimizer的表现。因此本文提出了一种层级的优化器结构实验表明优于前人提出的learned optimizer结构。设计learned optimizer结构的关键是平衡计算效率和表达能力。ps预训练时代的军备竞赛可以疯狂追求模型表达能力不顾及计算效率想想BERT和Google T5放出时的恐惧。但是优化器模型就不能这么任性了TPU也耗不起因此优化器结构一般都不会太复杂如下图所示上图的优化器结构是ICML2019上提出的使用了一个全连接网络Feed-ForwardFF。当模型完成了一个step的训练后就用这个FF对每个参数进行更新。FF的输入端是模型某个参数的梯度以及该参数的其他feature如Momentum等。FF的输出端是w的更新值则该参数将被更新为。注意这个FF每跑一次只完成了一个参数的更新。上图就是paper中提出的优化器结构了。下半部分的FF与上面ICML2019的优化器实现类似都是用于求某个参数的更新值称为Per-parameter FF。与之前不同的是这个FF还会接收到全局信息如train/valid loss以及该参数所在张量的信息如张量形状gradient norm等。相关信息来自于上方的LSTM。文中称其为Per-tensor LSTM。实验与常见优化器的比较下图展示了与常见优化器AdamLR、Adam8p、opt_list的比较结果。实验中总共测试了100个任务下使用learned optimizer后的性能提升比例。在各个任务上提升比例分布用箱图表示。纵轴代表了不同设置下的三个basline优化器。最上面3个Global XXX的设定是该baseline优化器对于所有任务都采用相同的超参数。而下面6个Per Task XXX对不同任务可以采用不同超参数括号中的XXX Trial代表尝试调参的轮数。每一种baseline都对应了两条同色系的箱图。这是因为用于测试的100个测试任务中有一部分是learned optimer训练过程中见过的有一部分从未见过。同色系的两个箱图中上面那条代表在见过的那些任务上的提升效果另一条代表在从未见过的那部分任务上的提升效果。图中箱图的分布并不十分集中可见提升效果对于不同的任务也各不相同。但总体来说与适度调参的baseline相比都有一定程度的提升效果。隐性的正则化惩罚项在机器学习中时常会在目标函数中加入正则化惩罚项从而对模型的复杂度进行规约。下图展示了Adam和learned optimizer在优化目标函数时的收敛轨迹。显然直线上目标函数最小。但可以看到Adam会直接垂直地收敛到上。而learned optimizer在收敛过程中还会有逐渐接近原点的趋势。作者认为这是由于接近原点处的(x,y)范数较小表明learned optimizer有隐式地进行正则化规约。可以优化自己的优化器最后Google Brain团队脑洞大开地用这个learned optimizer再从头训练一个新的自己作为比较的是作者在训练它的时候使用的两种优化器设置图中橙色和绿色曲线。可以看到learned optimizer取得了非常相近的训练曲线。作者认为这个实验进一步证明了该优化器的超强普适性。因为对优化器进行优化是一个全新的任务与这个优化器训练过程中见过的所有任务都完全不同。小结一个可以不用调参、适用于所有训练任务的优化器。如此的脑洞大开、又敢想敢做不知道除了Google还有哪里可以。萌屋作者小轶刚刚本科毕业于北大计算机系的美少女学霸目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS不过因为疫情正处于gap year于是就来和小夕愉快地玩耍啦~文风温柔优雅偶尔暴露呆萌属性文如其人哦知乎ID小轶。作品推荐1.有钱可以多任性OpenAI提出人肉模型训练文本摘要全面超越人类表现2.ACL20 Best Paper揭晓NLP模型评价体系或将迎来重大转折3.Attention模型我的注意力跟你们人类不一样后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~
http://www.zqtcl.cn/news/672629/

相关文章:

  • 汉字叔叔花了多少钱做网站免费原创视频素材
  • 网站开发提现功能互联网推广工作好做吗
  • 做阿里渠道的销售要有哪些网站网站评论怎么做的
  • 建设中网站如何上传图片深圳营销型网站建设设计公司
  • 建设电商网站需要多少钱家具网页设计素材
  • 物流网站html5模板网站整站开发
  • 网站随机代码网站开发技术试验教程
  • 做翻译 网站吗仿京东电商的网站开发报价
  • 霞山网站建设公司网站开发怎样手机号验证
  • 大型门户网站建设苏州优化网站建设
  • 网站步骤怎么搭建个人网站
  • 荥阳网站建设公司wordpress会员上限
  • 采购需求网站建设呼伦贝尔网站开发
  • 东莞网站建设方案服务极速网站建设定制价格
  • 网站建设费记账福州百度网络推广
  • 中国农村建设网站邵阳房产网
  • 做非法网站网站上海备案查询
  • 网站制作要学哪些北京信管局 网站备案
  • 百度新闻源网站有哪些wordpress怎么配置七牛cdn加速
  • 山东城乡住房建设厅网站wordpress 购物网站主题
  • 石家庄制作网站查网站流量查询工具
  • 信誉好的永州网站建设静态网站的短处
  • wordpress主题汉化软件河南网站优化哪家好
  • 关于水果的网站建设前端页面设计
  • 随州网站推广哪家好河南网站seo营销多少费用
  • 重庆网站优化排名软件方案谁能做网站开发
  • 河南官网网站建设报价app网站制作多少钱
  • 做网站页面一般用什么软件网站建设项目说明书
  • 做国外lead应该做什么网站网站运营报告
  • 建立一个自己的网站需要多少钱我的世界查找建筑网站