当前位置: 首页 > news >正文

一个网站用多少数据库表做体育直播网站

一个网站用多少数据库表,做体育直播网站,网站开发课程,网站公司建设个服务号多少钱文章目录1.摘要和背景1.1 摘要1.2 背景2.方法和贡献2.1 方法2.1.1 训练过程2.1.2 loss介绍2.2 贡献3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望主要贡献#xff1a;基于网络蒸馏方法#xff0c;提出了一种提升裁剪后模型的精度的方法#xff01;将训练时间大… 文章目录1.摘要和背景1.1 摘要1.2 背景2.方法和贡献2.1 方法2.1.1 训练过程2.1.2 loss介绍2.2 贡献3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望主要贡献基于网络蒸馏方法提出了一种提升裁剪后模型的精度的方法将训练时间大大缩短 推荐指数4颗星5颗星满 本系列是在阅读深度神经网络模型小型化方面论文时的笔记内容大部分从论文中摘取也会有部分自己理解有错误的地方还望大家批评指出 论文链接Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation 代码链接github代码 1.摘要和背景 1.1 摘要 原文摘要 Convolutional neural networks have been widely deployed in various application scenarios. In order to extend the applications’ boundaries to some accuracy-crucial domains,researchers have been investigating approaches to boost accuracy through either deeper or wider network structures, which brings with them the exponential increment of the computational and storage cost, delaying the responding time. 卷积网络被用于很多地方其中很多人为了提高卷积网络的精度对模型的深度和宽度进行增加但是虽然模型的精度有所增加但是模型的大小和模型的flops急剧增加这是得不偿失的。 In this paper, we propose a general training framework named self distillation, which notably enhances the performance (accuracy) of convolutional neural networks through shrinking the size of the network rather than aggrandizing it. Different from traditional knowledge distillation - a knowledge transformation methodology among networks, which forces student neural networks to approximate the softmax layer outputs of pre-trained teacher neural networks, the proposed self distillation framework distills knowledge within network itself. The networks are firstly divided into several sections. Then the knowledge in the deeper portion of the networks is squeezed into the shallow ones. Experiments further prove the generalization of the proposed self distillation framework: enhancement of accuracy at average level is 2.65%, varying from 0.61% in ResNeXt as minimum to 4.07% in VGG19 as maximum. In addition, it can also provide flexibility of depth-wise scalable inference on resource-limited edge devices. Our codes will be released on github soon. 在本文中提出了一种通用的训练框架使用该框架模型可以在不增加深度和宽度的基础上提高模型的精度。提出的自蒸馏框架是一种网络间的知识转换方法它要求学生神经网络近似于预先训练好的教师神经网络的softmax层的输出。该方法主要步骤为1将原始网络按照网络结构的特点分成几个浅层的网络2对分出来的浅层的网络分别使用网络蒸馏的方法与传统的蒸馏方法还不一样具体请看下面。最后得出的结果发现使用提出的框架对网络进行训练比fine_turn效果好 1.2 背景 卷积网络由已经在图像分类目标检测和语义分割方面取得了非常好的结果一般提升网络精度的方法是度网络的深度和宽度增加但是常常得到的结果是增加的精度与增加的计算量是不对等的所以该方法有弊端。为了能够让网络在计算资源受限的平台上运行则需要优化的目标是在满足资源限制的基础上尽可能的降低裁剪后模型的精度常用的方法包括1轻量级的网络设计2网络剪枝3网络量化等但是如何提高裁剪后模型的精度是模型后优化问题。知识蒸馏是网络模型压缩中常用的方法但是传统的知识蒸馏方法需要先预先训练一个大的强的老师网络然后在指导不同结构的学生网络进行训练从而达到将大网络老师网络的知识压缩到小网络学生网络。其中大网络的训练和小网络结构的寻找是非常耗时的。本文提出一个方法不需要训练老师网络也不需要寻找学生网络老师网络和学生网络使用相同的结构然后只需要一步就可以使用知识蒸馏的方法对网络精度进行提升。 2.方法和贡献 2.1 方法 上图是本文提出的自蒸馏训练框架图。从图中可以看出论文首先将原始网络分成了4个浅层的网络然后在每个浅层的网络的输出加上一个瓶颈卷积全连接层和softmax层并能够输出预测的类别的概率。网络的前传播过程主要分为4个其中前面3个为浅层网络的前向通道最后一个为老师网络的前向通道。网络中的loss也分为3类。下面将详细介绍。 2.1.1 训练过程 根据初始网络的深度和结构将初始网络分为几个浅层网络。其中初始网络作为老师网络浅层网络和深层网络作为学生网络如果我们选择的学生网络的结构是和老师网络一样的那么深层网络就是学生网络否则浅层网络是学生网络。在每一个浅层网络的后面加上一个瓶颈层全连接层和softmax层构成一个学生分类器。其中使用瓶颈卷积的目的是减少每个浅层分类器之间的影响。在训连教师网络的基础上使用知识蒸馏方法对学生网络进行训练最终训练好学生网络。 2.1.2 loss介绍 loss Source1:Cross entropy loss from labels to not only the deepest classifier, but also all the shallow classifiers;衡量的是深层网络和浅层网络的输出与真实标签之间的差异。loss Source2:KL (Kullback-Leibler) divergence loss under teacher’s guidance衡量的是老师网络和学生网络的分布差异性。loss Source3L2 loss from hints衡量的是学生网络和老师网络特征之间的差异性 2.2 贡献 提出了自蒸馏的训练框架使得模型在不增加大小flops和时间的基础上提高模型的精度。自蒸馏提供了一个可在不同深度执行的单一神经网络允许在资源有限的边缘设备上进行自适应的精度-效率权衡。即我们可以在原始网络的基础上根据资源的要求在进行网络的裁剪分成很多浅层网络。在常用的5种卷积模型和2种数据集上进行了实验发现使用本文所提出的的方法得到的结果都比自学习的方法要好。 3.实验和结果 3.1 实验 5个常用的模型ResNetWideResNetPyramid ResNetResNeXtVGG两个数据集cifar100 和ImageNet 3.2 结果 不同模型在cifar100上使用本文方法和不使用本文方法的结果对比 1.从实验的结果可以看出无论是哪种模型使用本文方法训练后的模型精度都会比直接训练的模型精度高。 2.针对大部分模型当网络截取0.75 的时候得到模型的精度已经比基准模型要好了。 3.集成的结果比使用本文方法训练后全部网络效果要好。 不同模型在ImageNet上使用本文方法和不使用本文方法的结果对比 1.从实验的结果可以看出实验结果和cifar100上的结果类似。 不同方法在cifar100和不同模型上的结果对比其中baseline是不采用蒸馏方法得到的结果其余的都采用了蒸馏的方法。 1.从表中的结果可以看出使用蒸馏方法训练得到的模型精度比不使用蒸馏得到的要高。 2.本文所提方法得到的精度都要比其他蒸馏方法的结果要高。 本文方法与使用深度监督方法在cifar100和不同模型上的结果对比。 1.通过表中你的结果可以看出无论哪种模型本文所提出的的方法相比于只是用深度监督方法的结果要好。 本文方法在模型速度和精度方面的权衡结果。 1.初始网络的层数越深则加速效果会更加明显 2.从实验的结果来看在几乎相同的裁剪率下legr算法得到的模型的精度比本文提出的方法要高一些 3.是否可以将网络拆分的更多使得速度的增加粒度更细 4.总结和展望 4.1 总结 提出的自蒸馏训练框架能够大大的增加训练后模型的精度。相比于传统的蒸馏方法提出了一段式的蒸馏方法将模型的训练时间缩短。相比于其他改进的蒸馏方法模型的精度得到提升不仅可以提升模型的精度还可以在一定精度的要求下对模型的结构进行裁剪。 4.2 展望 Automatic adjustment of newly introduced hyperparameters
http://www.zqtcl.cn/news/110809/

相关文章:

  • 在线购物网站开发项目网站建设电话推广话术
  • 网站主体信息太原站扩建
  • 西平县住房和城乡建设局网站空间商网站
  • p2p网站建设cms一键生成图片
  • 甘肃省第八建设集团公司网站能够做物理题的网站
  • 团购网站建设方案建筑工程网校官网
  • 佛山建站网站模板小公司管理方法
  • 常德住房和城乡建设局网站做风险代理案源的网站
  • 手机网站开发人员选项wordpress加载媒体库
  • 做钓鱼网站用哪种编程语言张家界有实力seo优化费用
  • 如何做一个主题网站做网站必须有框架么
  • 建设网站需要什么知识上海高端网页设计
  • 电子商务网站建设基本流程公司网站建设平台
  • 域名没过期 网站打不开怎么办素马设计顾问讲解价格
  • 怎么做非法彩票网站贵州网站开发哪家便宜
  • 青岛市医疗保险网站wordpress七牛云
  • 哪个浏览器可以做网站查询网站的外链
  • 浅析社区网站的建设有了网站源码 怎么建设网站
  • 苏州网站排名优化系统网页设计师
  • 网站开发定制推广杭州河南省的网页制作
  • 北京随喜设计网站国内好的seo网站
  • 网站中宣传彩页怎么做的网站建设评估及分析
  • 东莞php网站建设素材网站php程序源码
  • 怎么做免费视频网站模版网站可以做seo吗
  • 备案期间怎么做网站微动漫怎么制作
  • 精美的php个人网站源码公司网站建设方案书
  • 站长如何做视频类网站如何诊断网站
  • 个人怎么做网站优化在线做印章的网站
  • 自己做的小网站市场营销互联网营销
  • 程序员会搭建非法网站吗永久免费生成app网页