当前位置: 首页 > news >正文

网上做外贸都有哪些网站优秀的设计

网上做外贸都有哪些网站,优秀的设计,设置一个网站到期页面,北京网站开发外包公司文 | 陀飞轮知乎今天介绍一篇我司的文章Distilling Knowledge via Knowledge Review(缩写为KR)#xff0c;提出知识蒸馏的新解法。之前在知乎回答过一个知识蒸馏的问题#xff0c;为何感觉“知识蒸馏”这几年没有什么成果#xff1f;https://www.zhihu.com/question/3098084… 文 | 陀飞轮知乎今天介绍一篇我司的文章Distilling Knowledge via Knowledge Review(缩写为KR)提出知识蒸馏的新解法。之前在知乎回答过一个知识蒸馏的问题为何感觉“知识蒸馏”这几年没有什么成果https://www.zhihu.com/question/309808462/answer/1591099835其实知识蒸馏从15年提出以来主要出现了按照蒸馏位置不同的两种方法分别为蒸logits和features。蒸logitskd(指15年那篇)之后主要是通过同时对teacher和student进行约束来保持两者的分布一致性来做的如PKT、CC等蒸features起源于FitNet后续主要是通过如何更好的利用teacher的feature来做的如Overhaul等。另外最近因为self-supervised的火热也出现了如CRD、SSKD等优秀的自监督相关的kd算法。我在回答中也提到之前的知识蒸馏方法中Overhaul效果是最好的一骑绝尘。之前的方法把知识蒸馏的上限推到了一个新的高度貌似已经达到饱和了那么就引出来一个值得思考的问题之前的蒸馏feature和logits的方式teacher的信息真的完全被利用了吗显然还没有。01 Knowledge Review如上图其中(a)图是蒸logits(b)是蒸单层feture(c)是蒸多层feature。之前的蒸馏方法(a)(b)(c)三种形式都可以理解为相同层进行蒸馏引导student学习teacher相同层的feature。但是这种相同层蒸馏方式在训练的过程中显然是不合理的teacher深层的语义信息更加抽象在student的训练初期去学习teacher的抽象深层语义信息这就好比是让一个婴儿去学习大学知识这显然是非常困难且难以学习的。于是就引出了knowledge review的方法如图(d)所示student的单层feature通过teacher的多层feature同时引导学习这种引导学习的方式比起之前的方法更加完全teacher的浅层可以认为是比较简单的知识深层是比较抽象的知识student训练早期会更加关注teacher浅层简单知识的学习随着训练的进行会越来越关注teacher深层抽象知识的学习knowledge review这个词非常形象表达了这个过程——温故知新浅层是old knowledge深层是new knowledge。knowledge review的想法是非常make sense的但是想要做work还需要一些针对性的设计。Review Mechanism下面先通过符号假设推导出review mechanism的函数表达式。假设一张图片输入是 student网络是 那么student的logit输出为 。其中\mathcal { S }可以分成 不同部分 是classifier部分其余是不同stage部分那么表示复合函数 中间层的feture表示为 那么第i层的feature的公式为teacher的函数表达式跟student相类似。那么一层知识蒸馏的loss可以表示为其中 是对feature进行转换的函数。 是用来衡量转换后的teacher和student的距离函数。那么多层知识蒸馏的loss可以表示为review mechanism的单层知识蒸馏loss则可以表示为表示student第i层同时对应teacher的从1到i层的loss之和。那么review mechanism的多层知识蒸馏loss则可以表示为在知识蒸馏的训练过程中review mechanism的loss相当于一个正则项测试的时候只在student网络上inference没有额外的时间损耗。Residual Learning Framework根据上述review mechanism推导得到的框架如图(a)灰色块是student做了转换后的feature绿色块是蒸馏的距离函数计算方式。图(b)对图(a)进一步进行设计直接将每个单层student对应多层teacher但是直接对student每一个stage进行蒸馏不同层的特征会产生冲突相互干扰。将review mechanism的loss函数简写成忽略掉对feature的转换函数。然后将i和j两个顺序进行交换可以将上式括号内部分近似成student多层feature融合求距离的公式其中 是一个融合函数。那么整个知识蒸馏框架就变成了图(c)红色块表示融合模块。最后图(d)再进一步对图(c)的融合模块进行优化提高效率。融合 的过程可以看成是 和 融合于是就可以将 看成一个递归函数重复进行融合操作将 看成是 到 的融合那么loss函数可以表示成有没有觉得这个式子似曾相识这就是ResNet的residual learning的递推公式啊这个residual learning的设计可以帮助knowledge review的训练过程更加稳定容易优化。其中红色块和绿色块分别设计了ABF和HCL模块。ABF模块设计和SKNet非常类似将student后面一个stage转换得到的feature和当前stage的feature看成是两条分支然后通过concat、卷积的方式得到两条分支的spatial weight最后reweight后相加得到融合的feature。HCL模块设计借鉴了PSPNet的方式用四种尺度Pool分别对student和teacher的feature进行池化然后计算loss。通过上述一系列的设计knowledge review将温故知新的思想发挥到了极致。表格中的OFD是Overhaul可以看到knowledge review比之前的Overhaul、CRD等方法都要好上一大截而且在不同模型架构上都有效。总结知识蒸馏是计算机视觉中一个很有趣的问题之前的方法都是从如何更好的利用好teacher的信息出发将teacher和student相同层的信息利用起来而knowledge review进一步引入温故知新的思想将teacher的信息利用到了极致。但是知识蒸馏任然存在着超参敏感的问题后续或许可以结合一些self-supervised的方法像之前的CRD或者通过一些特殊的设计来增强知识蒸馏的稳定性这可能是知识蒸馏发挥实用价值当务之急的事情。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]. Distilling Knowledge via Knowledge Review: https://jiaya.me/papers/kdreview_cvpr21.pdf
http://www.zqtcl.cn/news/877208/

相关文章:

  • 公司信息化网站建设实施方案永久免费国外vps无需信用卡
  • 域名备案企业网站内容好网站建设公司开发
  • 合肥公司做网站网站代码需要注意什么
  • 梧州网站制作公司高端网站开发公司有哪些
  • seo网站设计北京做app的公司有哪些
  • 佛山淘宝设计网站设计价格软件商城免费下载 app
  • 物联网型网站开发cms系统源码
  • 淘宝价格网站建设wordpress 点餐
  • 晋中网站建设公司汉滨区城乡建设规划局 网站
  • 2018年的网站制作湖北省随州市建设厅网站
  • 做网络销售保温材料用什么网站好企业网站的建设企业
  • 2008发布asp网站海外如何 淘宝网站建设
  • 小米云网站开发食品包装
  • 销售网站怎么做的帝国cms网站搬家教程
  • 甘肃省城市建设档案馆网站wordpress推广自己淘宝店
  • 专业做曝光引流网站国家反诈中心app下载流程
  • 深圳校园网站建设响应式手机网站制作
  • 景县住房和城乡规划建设局网站我想买个空间自己做网站
  • 网站建设申请计划宣传片拍摄方案模板
  • 网站开发项目经验描述html网站开发事例教程
  • 998元网站建设优化网站建设实训报告心得体会
  • 网站经营性备案流程搜索引擎优化的简写是
  • 长春制作网站南昌建站系统外包
  • 在火炉做网站公园坐什么车hexo wordpress 比较
  • 好的免费博客网站设计图软件
  • 网站建设合同电子版金融网站建设运营方案
  • 网站域名备案在哪里贵阳经济技术开发区网站
  • 戴尔公司网站建设成功的关键是什么网站商城建设公司
  • 用python做 网站论坛南宁网站建设 南宁联达亿
  • 做婚恋网站要多少钱网站首页页面设计多少钱