当前位置: 首页 > news >正文

创办一个网站需要多少费用成都 企业 网站制作

创办一个网站需要多少费用,成都 企业 网站制作,视频号下载器手机版,杭州巴顿品牌设计论文地址#xff1a;#x1f430; 何凯明大神之作#xff0c;通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。 一方面由于源代码本身并不复杂#xff0c;但是要求多GPU分布式训练#xff0c;以及需要下载ImageNet这个大规模…论文地址 何凯明大神之作通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。 一方面由于源代码本身并不复杂但是要求多GPU分布式训练以及需要下载ImageNet这个大规模的数据集另一方面 本次只是测试和阅读算法原理的实现并不完整使用。因此重写了一个低配版流程不变超参数没有严格要求设置单GPU跑数据集自己配置几十张图片 no Shuffling BN。 queue 即文中所构建的字典起名为这个就是因为 C 中 的queue 容器因为它是一种先进先出的数据结构。 目录 一、数据预处理 二、前向传播 网络结构 算法流程 一、数据预处理 对同一张图片进行数据增强操作得到 query 和 key。 增强操作包括 transforms.RandomResizedCrop(224, scale(0.2, 1.0)),transforms.RandomGrayscale(p0.2),transforms.ColorJitter(0.4, 0.4, 0.4, 0.4),transforms.RandomHorizontalFlip(),normalize,所以dataloader中的每个输入样本是一个样本对儿。 通过下列方法实现 class TwoCropsTransform:Take two random crops of one image as the query and key.def __init__(self, base_transform):self.base_transform base_transformdef __call__(self, x):q self.base_transform(x)k self.base_transform(x)return [q, k] 二、前向传播 网络结构 代码中 encoder q 和 encoder k的网络结构用的都是ReNet 。ResNet最终的输出层包含了 (avgpool): AdaptiveAvgPool2d(output_size(1, 1))(fc): Linear(in_features2048, out_features128, biasTrue) 所以输出的特征向量维度为 NC。N为文中的Mini batch大小代码中的超参数为batch size。C应该没有什么具体的含义只是经验的设置为这一长度了没找出来C的大小关乎什么。 其输出还经过了L2归一化。  算法流程 1、 q 送入 encoder q 得到输出并经过L2归一化 (N,C) 2、 momentum 更新 key encoder。 3、 Shuffling BN当然我重写的代码并没有实现这个因为它需要多GPU但这并不妨碍认识它的作用 文中所述 大致意思由于ResNet使用了BN操作因此由于Batch 数据之间的交互使得模型利用它欺骗预设任务从而简单的找到一个低损失的解决方案然而这个解决方案效果并不好使得模型学习不到好的表征能力。 其提出的Shuffling BN 首先把所有进程的Tensor的收集起来如果分布式训练一般每个GPU包含一个进程所以收集的数据总量大小为 num GPUs * batch size参考这里 x_gather concat_all_gather(x) 接下来制作打乱的索引整个过程如下所示 def _batch_shuffle_ddp(self, x):Batch shuffle, for making use of BatchNorm.*** Only support DistributedDataParallel (DDP) model. ***# gather from all gpusbatch_size_this x.shape[0]x_gather concat_all_gather(x) # 将所有进程的数据收集起来batch_size_all x_gather.shape[0]num_gpus batch_size_all // batch_size_this# random shuffle indexidx_shuffle torch.randperm(batch_size_all).cuda() # torch.randperm 将[0,n)数随机排列# broadcast to all gpustorch.distributed.broadcast(idx_shuffle, src0) # 将这个信息广播到所有其他进程# index for restoringidx_unshuffle torch.argsort(idx_shuffle) # 按照值大小顺序返回下标# shuffled index for this gpugpu_idx torch.distributed.get_rank() # 返回当前的进程idx_this idx_shuffle.view(num_gpus, -1)[gpu_idx] # idx_shuffle view 后 (num_gpus, batch size) 但是batch size中的索引是打乱顺序的return x_gather[idx_this], idx_unshuffle 最终返回 随机打乱顺序后挑选的当前进程的 batch size 大小的数据也就是说进行 BN归一化后的数据已经不在 同一个原来的批 中了。 4、k 送入 encoder k 中在经过L2 归一化 和q一样。  NC 5、Shuffling BN 对齐 q 和 k 如下面举例 # idx_shuffle tensor([10, 16, 13, 2, 4, 0, 6, 21, 22, 31, 29, 3, 19, 17, 14, 30, 28, 12,24, 26, 8, 25, 11, 18, 5, 7, 27, 1, 15, 23, 20, 9])# idx_unshuffle tensor([ 5, 27, 3, 11, 4, 24, 6, 25, 20, 31, 0, 22, 17, 2, 14, 28, 1, 13,23, 12, 30, 7, 8, 29, 18, 21, 19, 26, 16, 10, 15, 9])# q 的 idx_this tensor([10, 16, 13, 2, 4, 0, 6, 21])# k 的 idx_this tensor([ 5, 27, 3, 11, 4, 24, 6, 25]) 这里主要关注的点是 这步是为了使 k对齐打乱顺序的q。q之前是打乱了顺序从而改变了每个batch的内容相当于从所有的batch中随机挑选了 batch size的q从而保证去除BN的影响。 而 k 不需要 再打乱了 只需要从原有的batch size 数据分布中挑选出与q对应的数据即可。所以才在 shuffle BN q的过程中记录了indx unshuffle。 这里的对应关系举例比如 index shuffle 中的 0 现在位于原来没打乱状态的索引 5处 类似的 1 --27, 2--3, 以此类推。 注不要被上面单进程的即idx this不对齐所迷惑上面的只是分进程处理的分布式训练最终会把所有进程的数据拼接起来一起处理所以所有进程的数据对齐就行。 6、计算损失即文中公式1 其中 用到的计算方法举例如下分别用爱因斯坦求和公式实现参考这里 a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 2]]) b torch.tensor([[2, 2, 2], [2, 2, 2], [1, 1, 1]]) print(a) print(b) c torch.einsum(nc, nc-n, [a, b]) # (3) d c.unsqueeze(-1) # (3,1) print(c)# 输出 tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]]) tensor([[2, 2, 2],[2, 2, 2],[1, 1, 1]]) tensor([12, 6, 7]) tensor([[12],[ 6],[ 7]]) a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 3]]) # (3,3) a1 torch.tensor([[1, 2], [1, 1], [2, 2]]) # (3,2) c torch.einsum(nc,ck-nk, [a, a1]) print(a) print(a1) print(c)# 输出 tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]]) tensor([[1, 2],[1, 1],[2, 2]]) tensor([[ 9, 10],[ 4, 5],[10, 12]]) 这里的self.queue 即文中的字典 queue初始化为 self.register_buffer(queue, torch.randn(dim, K)) self.queue nn.functional.normalize(self.queue, dim0) K为字典的长度默认设置65536。这里为什么设置为这个可能是由于ImageNet数据集比较大所以设置的字典比较长具体的长度设置好像没有做固定的要求 来源于github官网。但代码中有要求K必须是batch size 的倍数这个为了确保字典的更新方便执行入栈和弹出操作。这个字典像是C的 queue容器的FIFO数据结构即先进先出 self.K % batch_size 0 l_pos torch.einsum(nc,nc-n, [q, k]).unsqueeze(-1) # (8,1) 对应元素相乘并第一维加和# negative logits: NxKl_neg torch.einsum(nc,ck-nk, [q, self.queue.clone().detach()]) # (8,65536) 矩阵相乘# logits: Nx(1K)logits torch.cat([l_pos, l_neg], dim1) # (8,65537)# apply temperaturelogits / self.Tlabels torch.zeros(logits.shape[0], dtypetorch.long).cuda() # (8,)loss criterion(output, target) 这里看标签都是0即第一个也就是0维数据为正样本。因为在拼接cat的时候正样本是在前面的。 7、更新字典 按mini batch 更新。具体地如果 训练次数*mini batch size 小于字典长度则字典queue每次都会填充新的key。若训练次数*mini batch size 大于 字典长度则之前的被替换掉。 ptr (ptr batch_size) % self.K # move pointer 8
http://www.zqtcl.cn/news/815044/

相关文章:

  • 国科联创网站建设无锡网站建设有限公司
  • 网站开发官网源码石家庄怎样做网站
  • 做网站的开发工具北京公司网站制作电话
  • 试用体验网站3g微网站是什么
  • 响应式网站源代码什么是营销渠道
  • 深圳品牌做网站公司有哪些php的网站数据库如何上传
  • 关于医疗保障局门户网站建设青柠直播免费版
  • 微信网站制作免费平台微商城网站建设公司的价格
  • 古典风格网站模版广州网站建设加q.479185700
  • 建站工具推荐网站关键词在哪里添加
  • 国内简约网站汽车最好网站建设
  • 外文网站建设网站项目计划书模板范文
  • 免费婚庆网站模板深圳市龙华区繁华吗
  • 档案馆建设网站邢台又一地被划定高风险区域
  • 网站怎么赚钱的网站asp源码
  • 明星网站怎么设计新手怎么做网络销售
  • ps做网站72分辨率深鑫辉网站建设
  • 购物网站设计的目的html简单登录页面代码
  • 网站导航栏下载网页自助建站
  • 新手建立网站的步骤建设企业网站个人网银
  • 俄罗斯女孩制作论文网站wordpress和hexo
  • 南宁市网站设计wordpress主题安装教程
  • 网站取消备案怎样做国外电子商务网站
  • 学校建设网站费用申请青岛平台公司
  • 平面设计师个人网站怎样登录韵网网站
  • 怎么用eclipse做网站开发推广平台取名字
  • 深圳建网站服务商广东佛山建网站
  • 网站推广公司卓立海创英文网站建设需求
  • 无锡网站营销公司简介最专业网站建设公司首选
  • 中文网站建设小组ios开发者账号申请