成都建立网站,如何做问卷调查网站,河南省建设厅官网查询,asp汽车销售公司网站源码 4s店网站源码 汽车网站建设 完整无文 | 刘斯坦#xff0c;电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白#xff0c;一方面为深度学习的实际效果和应用价值而感到兴奋#xff0c;另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是#xff0c;调模型的强应用向的研究工作#xff0c;由… 文 | 刘斯坦电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白一方面为深度学习的实际效果和应用价值而感到兴奋另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是调模型的强应用向的研究工作由于深度学习目前的黑箱性对于个人似乎只能积累应用经验但在数理工具开发能力等等方面的训练和提升似乎不强。所以希望自己在调模型以外打开视野看看一些更有见地的工作。总之到目前为止深度学习领域的发展趋势是什么有哪些值得关注的新动向在应用领域诸如cv,nlp等研究思路是否有新的变化回答一作者刘斯坦来源链接https://www.zhihu.com/question/462218901/answer/1925000483目录随机初始模型到最终模型之间的插值情况最终模型之间的插值情况神经网络损失面的全貌不知道算不算硬核不过我觉得关于Loss Landscape的研究很值得关注对理解神经网络的一些特性很有帮助。相关的研究很多每一个研究都研究了损失面的一个或若干个特性把他们拢在一起会发现神经网络的损失面会变得很清晰。首先有几个基本概念普及一下一个是所谓“flat wide minima”极小值所在的损失面越平坦越宽泛化性能越好所以优化的最终目标就是追求flat wide minima。还有一个就是所谓的线性插值就是说两个模型一样的网络结构不同的参数对这两个权重进行粗暴的线性加权平均得到一个新的模型这个操作就叫线性插值。通过对模型进行线性插值来观察损失的变化可以了解损失面的几何结构这是一个经常使用的工具。随机初始模型到最终模型之间的插值情况可以想象一下一个神经网络经过几十上百个epoch的训练从随机的初始状态一直到最后的最小值中间大约会经过各种跌宕起伏。如果粗暴地从随机初始状态到最终状态之间拉一根直线对模型进行线性插值然后这条插值的直线投射到损失面上就得到了插值过程中的损失变化曲线如果损失面起伏很复杂的话那这条从直线投射而来的曲线应该也是上下起伏的吧然后根据Goodfellow在2014年的发现很多时候这个曲线是单调递减的黄线是训练时候跟着梯度在损失面上走出来的损失曲线蓝线和红线是从不同的初始点到最终模型拉一根直线投射到损失面上的损失曲线。可以看到这条损失曲线是单调递减的。这篇文章 Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes https://arxiv.org/abs/2104.11044 管这个特性叫“单调线性插值”。文章发现从不同的初始值可以走到同一个模型殊路同归而且模型符合单调线性插值如左图。而这个情况文章 Linear Mode Connectivity and the Lottery Ticket Hypothesis https://arxiv.org/abs/1912.05671 也说了随机初始化位置不同模型经常就会掉到同一个局部极小值而这个趋势在训练很早期就已经确定了。有时候不同的初始值会走到不同的模型这种情况如果你从init1到opt2拉一根直线去投射就不是单调的了也很好理解因为要翻过一个小山坡这个情况是右图作者发现如果初始值和终值权重之间的距离越远单调线性插值就越难。而导致这种情况的因素有使用大的训练步长使用Adam优化器和使用Batch Norm。比如使用Adam经常就会遇到小山峰这意味着大的步长和Adam优化器都会促使模型越过山峰。最终模型之间的插值情况也有一些论文研究最终模型之间的插值情况上文说了从两个初始值出发到达两个极小值之间可能会有山坡所以如果对这两个极小值之间进行插值会投射出这样一条损失线这很好理解但这却不是真相的全部。文章 Essentially No Barriers in Neural Network Energy Landscape * https://arxiv.org/abs/1803.00885* 发现这些极小值之间是可以通过一段一段的直线连接起来的如果你直接走直线就是越过山坡会跌宕起伏但如果使用文章中的优化方法绕着走肯定可以到达另一个极小值。也就是说局部极小值之间都可以通过线段连接起来而且一路上损失都很低上图右边那条黄线沿着山谷走损失一直很低一直都保持极小值状态。而文章 On Connected Sublevel Sets in Deep Learning https://arxiv.org/abs/1901.07417 则证明如果使用分段线性激活函数比如ReLu那么这个神经网络模型的所有局部极小值其实都是连在一块儿的他们其实都属于同一个全局最小值。文章 Landscape Connectivity and Dropout Stability of SGD Solutions for Over-parameterized Neural Networks https://arxiv.org/abs/1912.10095 告诉我们神经网络参数量越大局部极小值之间的连接性越强。神经网络损失面的全貌那么综合以上各种论文的结论基本可以描绘出神经网络损失面的全貌应该长这样极小值都处于同一个高度属于同一个全局最小值而且互相之间是连在一起的。那么很容易想到了如果你往这个沙盘随机扔弹子是不是更容易掉到那种特别宽的flat minima没错文章 The large learning rate phase of deep learning:the catapult mechanism https://arxiv.org/abs/2003.02218 发现使用大的学习率更容易掉到平坦的极小值flat wide minima也就是说学习率一大相当于在这些山之间乱跳当然更容易掉到flat wide minima咯。大胆猜测根据Lottery Ticket假设那篇论文描述的现象这里面每一个小山都是一个sub-network另外还有很多研究表现resnet和mish激活函数可以让损失面更平滑而Relu会让极小值变得很尖很崎岖。回答二作者电光幻影炼金术来源链接https://www.zhihu.com/question/462218901/answer/1966379644提一点浅见深度学习不能不调参也不能只调参。如果不调参很难大幅超过baseline尤其是在模型/任务大幅度改变的情况下所需要的超参数往往截然不同。这样的结果是incremental contribution/lack of novelty还会引发一系列关于方法的concern。我老板曾经曰过 其实很多reviewer对实验的质疑都是参数没调好导致的。 如果只调参数那么格局就有点小了。想要格局变大论文中需要有 1清晰的motivation2干净的逻辑链辅助推理3丰富的消融实验4好的可视化结果5有泛化潜力的结论或者insight。 最好文章能揭示更多未解决的问题。我们可以欣赏一下swin transformer是怎么做的。首先swin transformer明确提出了transformer特有的一系列问题并且有比较充足的逻辑链提出一系列的模块因为多尺度所以需要分window因为分开的window不包含边界信息所以要加入shift window。其次swin transformer做的数据集也足够多证明其提出的模块可能是广泛有效的。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集