当前位置: 首页 > news >正文

天津网站建设网站推广收录网站制作

天津网站建设网站推广,收录网站制作,学做网站论坛插件,快速做网站详情页文 | 王珣知乎本文已获作者授权#xff0c;禁止二次转载从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始#xff0c;自监督学习#xff08;SSL#xff09;成了计算机视觉的热潮显学。凡是大佬大组#xff08;Kaiming, VGG#xff0c;MMLAB等#xff09;#xff0c;近两… 文 | 王珣知乎本文已获作者授权禁止二次转载从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始自监督学习SSL成了计算机视觉的热潮显学。凡是大佬大组Kaiming, VGGMMLAB等近两年都是搞了几个自监督方法的。从一开始的新奇兴奋地看着Arxiv上新发布的SSL方法像MoCo, SwAV, BYOL, SimSiam等这些方法着实有趣但是有一些相关的文章多少有些泛滥了让人有些眼花缭乱。最近FAIR的一个工作着实让我眼前一亮觉得好有意思颇为叹服。关键的是这个方法特别简单应当可以称之为最简单的SSL。论文题目: Barlow Twins: Self-Supervised Learning via Redundancy Reduction论文链接: https://arxiv.org/abs/2103.03230.pdfArxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0324】 下载论文PDF~藉此机会我也自己梳理一下SSL在这不到两年的时间里的个人认为比较重要的认知变化的节点从SimCLRMoCo为起点以这篇BarLow Twins为暂时的终点。从这个历史线上去看SSL的发展非常有趣计算机视觉圈子对于SSL的认知在不断打脸的过程中不断深入。1.首先是2020年初的SimCLR这个文章的核心贡献有二一是提供了使用google的丰富的计算资源和强大的工程能力使用高达4096的mini-batch size把SSL的效果推到了supervised方法差不多的效果预训练模型做下游任务二是细致地整理了一些对SSL效果提升很有用的tricks: 如更长的训练多层MLP的projector以及更强的data augmentations。这些有用的trick在后来的SSL的论文中一直被沿用是SSL发展的基石而第一个点则是指出了大batch-size出奇迹为未来的论文指出了改进的路或者树立了一个进击的靶子。2.MoCo 共有两版本原始版本是2019年末放出来的。在SimCLR出现后之后又吸收SimCLR的几个SSL小技巧改进出了V2版但是整体方法的核心是没有变化的V2仅仅是一个2页试验报告。相比于SimCLR大力出奇迹恺明设计了一个巧妙的momentum encoder 和 dynamic queue 去获得大量的负样本。这里的momentum encoder 采用了动量更新机制除了文章本身的分析另一层的理解是其实momentum encoder相当于是teacher, 而dynamic里是来自不同mini-batch的样本所以teacher需要在时间维度上对于同一个样本的输出具有一致性否则要学习的encoder 也就是student会没有一个稳定的学习目标难以收敛当然另一方面teacher 也不能一直不变如果teacher一直不变student就是在向一个随机的teacher学习。综上动量更新机制是一个相当好理解的选择。阶段小结抛开细节SimCLR和MoCo的核心点都是认为negatives负样本 非常重要一定要有足够多的负样本只不过实现方式略有不同。SimCLR 拿着TPU直接把batch size搞到4096一力降十会恺明则是巧妙设计Momentum机制避开了硬件工程的限制做出了可以飞入寻常百姓家的MoCo。再次重申这时候的认识还是停留在需要大量的负样本来提升SSL model的效果这个历史局限里。3.BYOL 是Deep Mind 在2020年发布的工作文章的核心点就是要破除负样本迷信 BYOL认为不使用负样本照样可以训练出效果拔群的SSL model。但是如果直接抛弃负样本只拉近正样本对的话model 会容易陷入平凡解对于任意样本输出同样的embedding。为了在没有负样本的帮助下解决这个问题。BYOL 在Projector之上增加了一个新的模块取名Predictor。整体可以理解为在MoCo的基础上但是不再直接拉近正样本对即同一个样本不同增强后的输出的距离而是通过Predictor去学习online encoder 到 target encoder (即moco里的momentum encoder)的映射。另外对target network梯度不会传递即Stop-Gradient。注在MoCo中momentum encoder也是没有梯度回传的不过MoCo这么没有给momentum encoder回传梯度是因为queue里面的负样本来自过去的mini-batch其计算图已经丢失没有办法回传梯度而如果只回传正样本对的梯度会很不合理。而BYOL是只考虑正样本对如果梯度对于online encoder 和 target encoder都回传不存在这个不合理的点因此Stop-Gradient是BYOL的一个特别的设计。4.SimSiam 是在BYOL的再次做减法这里在BYOL的基础上去除了momentum更新的target encoder, 直接让target encoder online encoder。指出了predictorstop-gradinent 是训练出强大SSL encoder的一个充分条件。再次的阶段小结在这个阶段认识进展到了可以没有负样本的阶段但是不使用负样本模型就会有陷入平凡解的风险。为此BYOL设计了predictor 模块并为之配套了stop-gradient技巧SimSiam通过大量的试验和控制变量进一步做减法去除了momentum update。让模型进一步变得简单。再次总结就是predictor模块避免了直接拉近正样本对对于梯度的直接回传让模型陷入平凡解。BYOL 和 SimSiam 在方法上都是很不错的试验也做得很可信充分可是对于方法的解释并没有那么深刻置信可能要寻求一个扎实的解释也确实很难。可以参见https://spaces.ac.cn/archives/7980也是另一个角度的解释颇为有趣合理。此时已经进入到了摆脱了负样本了但是在不使用负样本的情况要想成功训练好一个SSL model需要引入新的trick: 即predictorstop-gradient。这样子来看难免有点像左手换右手的无用功但是整体的技术认识是进步了很多的。5.最后终于到了这次的主角Barlow Twins在不考虑数据增强这种大家都有的trick的基础上 Barlow Twins 既没有使用负样本没有动量更新也没有predictor和stop gradient的奇妙操作。Twins 所做的是换了一种视角去学习表示从embeddig本身出发而不是从样本出发。优化目标是使得不同视角下的特征的相关矩阵接近恒等矩阵即让不同的维度的特征尽量表示不同的信息从而提升特征的表征能力。这种做法和以前传统降维如PCA的方法是有共通之处的甚至优化的目标可以说非常一致。▲Barlow Twins 模型整体图设模型为其模型参数记为。对于不同的视角下的输入分别输出的特征, 其中。那么Twins 方法和以上的基于正负样本对的所有方法的区别不严格抛去特征normalizeBN等操作来说的来说可以用一句话或者说两个式子来概括。过去的方法大多基于InfoNCE loss 或者类似的对比损失函数其目的是为了是的样本相关阵接近恒等矩阵即而Twins的目的是为了让特征相关阵接近恒等即对于对比损失类方法比如SimCLR或MoCo需要很大的Batchsize或者用queue的方式去模拟很大的batchsize, 而Twins需要极大的特征维度8192。这种特性和以上两个公式是完全对应且对称的。一个需要大,一个需要大。▲Barlow Twins 的核心在于提出了图中新的损失函数总结从历史线上来看从SimCLR和MoCo说一定要有大量的负样本到BYOL和SimSiam通过神奇操作stop-gradpredictor验证了负样本并非不可或缺最终到了Twins切换了一直以来从对比学习去训练SSL的视角转向从特征本身出发推开了另一扇大门。对比而言相比于最简单的裸InfoNCETwins仅仅是换了一个loss function (大维度的特征)。不过大的维度相比于增加batchsize的代价要小得多就是多占一点的显存。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集
http://www.zqtcl.cn/news/40544/

相关文章:

  • 帝国cms电影网站模板济南模板网站
  • 网站建设属不属于无形资产十一冶建设集团有限责任公司网站
  • 营销型网站建设jm3q工商营业执照官网
  • 中企动力做的电梯网站网站建设域名注册
  • 苏州建网站要多少钱wordpress虚拟主机如何安装
  • 寿县住房与城乡建设局网站新建网站怎么优化
  • 做门户网站的意义在哪公司网站建设建设
  • 网站建设 外包是什么意思滨海做网站找哪家好
  • 郑州网站建设程序编程软件手机
  • 鞍山市城乡建设局网站软件开发公司企业
  • 建立自己的个人网站合肥网站建设模块
  • ipad 建网站群晖 wordpress端口
  • 做视频网站付费版摇一摇抽签用什么网站做
  • 怎么给网站做404界面黄骅网站建设
  • 竹子建站加盟咨询网站 扁平化
  • 入夏网站建设公司做了5天游戏推广被抓了
  • 快排seo软件贵阳网站搜索优化
  • 河池企业网站开发公司做宠物网站的工作室
  • 衡阳做网站网站版面
  • 杭州网站的优化做代理需要交钱吗
  • 展厅效果图网站汶上网站建设多少钱
  • 什么情况自己建设网站dede替换网站模板
  • 兰州网站建设q.479185700惠72建站网
  • 网站建立的关键技术青羊区建设厅网站
  • 小米官网网站建设基于wordpress做的
  • 手表常用网站外贸seo业务员招聘
  • 网站开发工程师简介哪个网站可以宣传做的蛋糕
  • 奉化网站建设报价网站如何做seo规划
  • 黑龙江省道路建设网站关键词排名查询api
  • 搜索引擎地址西安新站网站推广优化