谷歌网页,网站建设 seo模块,100人公司局域网搭建,云南瑞丽最新政策文 | 萧箫 发自 凹非寺源 | 量子位还在苦恼怎么给优化器调整更好的参数吗#xff1f;现在#xff0c;谷歌大脑搞出了一个新的优化器VeLO#xff0c;无需手动调整任何超参数#xff0c;直接用就完事了。与其他人工设计的如Adam、AdaGrad等算法不同#xff0c;VeLO完全基于A…文 | 萧箫 发自 凹非寺源 | 量子位还在苦恼怎么给优化器调整更好的参数吗现在谷歌大脑搞出了一个新的优化器VeLO无需手动调整任何超参数直接用就完事了。与其他人工设计的如Adam、AdaGrad等算法不同VeLO完全基于AI构造能够很好地适应各种不同的任务。当然效果也更好。论文作者之一Lucas Beyer将VeLO与其他“重度”调参的优化器进行了对比性能不相上下有网友看到了一丝优化器进步的曙光在Adam之后出现了不少优化器却都表现得非常失败。这个优化器或许确实能表现更好。所以这个基于AI的优化器是如何打造的VeLO究竟是怎么打造的在训练神经网络的过程中优化器optimizer是必不可少的一部分。▲神经网络训练过程图源Thomas Wolf但AI模型应用都这么广泛了训练AI模型用的优化器却仍然是人工设计的听起来多少有点不合理。于是谷歌大脑的研究人员灵机一动为何不用AI来做一个优化器呢设计上优化器的原理基于元学习的思路即从相关任务上学习经验来帮助学习目标任务。相比迁移学习元学习更强调获取元知识它是一类任务上的通用知识可以被泛化到更多任务上去。基于这一思想VeLO也会吸收梯度并自动输出参数更新无需任何超参数调优并自适应需要优化的各种任务。架构上AI优化器整体由LSTM长短期记忆网络和超网络MLP多层感知机构成。其中每个LSTM负责设置多个MLP的参数各个LSTM之间则通过全局上下文信息进行相互协作。训练上AI优化器采用元训练的方式以参数值和梯度作为输入输出需要更新的参数。经过4000个TPU月一块TPU运行4000个月的计算量的训练集各种优化任务之所长后VeLO终于横空出世。比人工调参优化器效果更好结果表明VeLO在83个任务上的加速效果超过了一系列当前已有的优化器。其中y轴是相比Adam加速的倍率x轴是任务的比例。结果显示VeLO不仅比无需调整超参数的优化器效果更好甚至比仔细调整过超参数的一些优化器效果还好与“经典老大哥”Adam相比VeLO在所有任务上训练加速都更快其中50%以上的任务比调整学习率的Adam快4倍以上14%以上的任务中VeLO学习率甚至快上16倍。而在6类学习任务数据集对应模型的优化效果上VeLO在其中5类任务上表现效果都与Adam相当甚至更好值得一提的是这次VeLO也被部署在JAX中看来谷歌是真的很大力推广这个新框架了。巴特也有网友认为耗费4000个TPU月来训练VeLO计算量成本过大虽然这个进展很重要但它甚至都快赶上GPT-3的训练量了。目前VeLO已经开源感兴趣的小伙伴们可以去试试这个新的AI优化器。One More Thing前段时间一位哈佛博士生提了个有意思的想法得到不少人赞同更多论文的作者们也应该像演职员表一样公开自己在论文中的工作内容。Kareem Carr是生物统计学领域的博士生作者贡献在生物论文中比较常见不过之前在AI论文中见得不多。现在这篇谷歌大脑论文的作者们也这样做了谁写的论文、谁搭建的框架一目了然不知道以后会不会成为机器学习圈的新风气手动狗头。GitHub地址https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt论文地址https://arxiv.org/abs/2211.09760后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群[1]https://twitter.com/jmes_harrison/status/1593422054971174912[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg