当前位置: 首页 > news >正文

丽水建设局网站wap网站 什么意思

丽水建设局网站,wap网站 什么意思,服装设计自学软件,seo实战密码怎么样文章目录 一、完整代码二、论文解读2.1 介绍2.2 Distillation2.3 结果 三、整体总结 论文#xff1a;Distilling the Knowledge in a Neural Network 作者#xff1a;Geoffrey Hinton, Oriol Vinyals, Jeff Dean 时间#xff1a;2015 一、完整代码 这里我们使用python代码进… 文章目录 一、完整代码二、论文解读2.1 介绍2.2 Distillation2.3 结果 三、整体总结 论文Distilling the Knowledge in a Neural Network 作者Geoffrey Hinton, Oriol Vinyals, Jeff Dean 时间2015 一、完整代码 这里我们使用python代码进行实现 # 完整代码在这里 # 就是一下softmax # 有时间再弄二、论文解读 2.1 介绍 使用一系列模型预测概率的平均值即软投票机制能显著改善模型的性能但是部署起来是比较不方便的因为要预测很多的模型结果再求平均论文中提到可以把所有模型预测结果的平均值部署在一个模型里面然后利用这一个模型来预测这样就可以大大减少部署的难度这种方法被称为Knowledge Distillation,即知识蒸馏 在知识蒸馏中我们不需要关心参数数量和大小的变化我们只需要关心经过这一系列的参数得到的结果变化如果参数变少一般来说100%复刻这个结果是很难的但是我们可以以一定的比例如80%去还原当时的结果尽管可能得到错误答案但是错误答案的相对误差可以稍微控制错误答案的相对误差告诉了我们很多关于繁琐的模型是如何泛化的。例如一个宝马的形象可能被误认为垃圾车的可能性很小但这个错误仍然比误认为胡萝卜的可能性大很多倍。 人们普遍认为用于培训的目标函数应该尽可能接近地反映用户的真实目标。尽管如此当真正的目标是很好地推广到新数据时模型通常被训练以优化训练数据的性能。显然训练模型进行泛化良好会更好但这需要关于正确的泛化方法的信息而这些信息通常是不可用的。然而当我们将知识从大模型中提取出来到小模型中时我们可以训练小模型以与大模型相同的方式进行泛化。如果繁琐的模型概括例如它是一个大型的平均不同的模型一个小模型训练推广以同样的方式通常会做更好的测试数据比一个小模型训练的正常方式在相同的训练集用于训练集成。 将繁琐模型的泛化能力转移到小模型的一个明显方法是使用麻烦模型产生的类概率作为训练小模型的“软目标”。在这个转移阶段我们可以使用相同的训练集或一个单独的“转移”集。当繁琐的模型是一个更简单的模型的大型集合时我们可以使用它们各自的预测分布的算术或几何平均值作为软目标。当软目标高熵他们提供更多的信息比硬目标和更少的方差之间的梯度训练情况下所以小模型通常可以训练的数据比原始繁琐的模型和使用更高的学习率。 2.2 Distillation 在多分类问题上神经网路依赖于softmax产生各个类别的概率其中T是一个参数可以让输出概率变得平滑 T越大输出的概率越平滑 在最简单的蒸馏形式中知识通过在转移集上训练模型并在传输集中的每个情况下使用软目标分布来转移到蒸馏模型该分布是通过在其softmax中使用高T的原模型或者原模型集合产生的我们可以在在训练蒸馏模型时使用相同的T但经过训练后把T变为1 当我们知道输入的正确输出时我们可以利用对目标函数简单加权的方式去构造最终的目标函数第一个目标函数是与软目标的交叉熵这个交叉熵是用与蒸馏模型的softmax相同的T来生成软目标来计算的。第二个目标函数是具有正确标签的交叉熵。这是用蒸馏模型的softmax中完全相同的类来计算的但T为1因为在预测的时候T便是1 对第一个目标函数求导 当T很大的时候我们有 在 ∑ z j ∑ v j 0 \sum z_j\sum v_j0 ∑zj​∑vj​0的时候我们又有 所以在高T同时 ∑ z j ∑ v j 0 \sum z_j\sum v_j0 ∑zj​∑vj​0的时候蒸馏的本质相当于如下 ∂ C ∂ z j ≈ ∂ ( z j − v j ) 2 2 N T 2 ∂ z j \frac{\partial C}{\partial z_j} \approx \frac{\partial \frac{(z_j-v_j)^2}{2NT^2}}{\partial z_j} ∂zj​∂C​ ≈∂zj​∂2NT2(zj​−vj​)2​​ 在较低的T下蒸馏模型几乎不去关心那些比平均数更小的负值平均数为0这是潜在的优势因为这些数几乎不受用于训练模型集合的代价函数的限制因此它们可能非常有噪声另一方面那些很小的负值可能会传递关于由模型集合所获得的知识的有用信息。其中哪一种影响占主导地位是一个经验问题我们表明当蒸馏的模型太小无法捕获繁琐模型中的所有知识时不大不小的T效果最好这强烈表明忽略大的负对数是有用的 2.3 结果 原模型和原模型集合可以部署在一个小的蒸馏模型中并且准确性可观 利用soft targets即软投票机制可以达到regularization即防止过拟合的效果 可以利用部分模型在部分类中的高准确率提高权重进而提高模型的准确度或者对一些表现非常好的模型给予其较高的T 三、整体总结 蒸馏可以很好地将知识从一个集成或从一个大的高度正则化的模型转移到一个更小的蒸馏模型中
http://www.zqtcl.cn/news/915886/

相关文章:

  • 腾讯建设网站视频视频视频中国建筑信息平台
  • 关于政务网站建设的调查问卷搜狗网页版
  • 网站开发工程师优势宁波seo网站
  • 做网站用什么编程软件php网站中水印怎么做
  • p2网站模板做视频官方网站
  • 网站建设季度考核评价工作php做网站有哪些优点
  • 设计某网站的登录和注册程序凡科建站添加文章
  • wordpress 批量打印wordpress 数据库优化
  • 购物网站开发设计类图网络架构指什么
  • 学校网站建设方法wordpress 调用用户名
  • 深圳创建网站公司哈尔滨全员核酸检测
  • 网站开发实施计划宠物网站 html模板
  • 在线生成手机网站商城网站平台怎么做
  • 深圳专业企业网站制作哪家好写作网站新手
  • 福建泉州曾明军的网站桥梁建设期刊的投稿网站
  • 国内设计网站公司wordpress电视主题下载
  • 自贡网站开发河南省建设网站首页
  • 昆明网站推广优化服务器代理
  • wordpress 网站统计插件福建省建设工程职业注册网站
  • 手机移动端网站是什么上海网站设计服务商
  • 多语言网站建设推广孝感门户网
  • 外贸soho 网站建设旅游电子商务网站建设调查问卷
  • 北京专业制作网站seo优化技术教程
  • 网站建设最低多少钱珠海在线网站制作公司
  • 网站建设完成之后要索取哪些医疗网站建设服务
  • 长沙招聘网站有哪些深圳seo论坛
  • 网站如何做网络推广山西住房建设厅官方网站
  • 优化排名推广技术网站平面设计创意
  • 山西网站建设哪家有tv域名的网站
  • 个人博客网站怎么赚钱公司招聘一个网站建设来做推广