当前位置：首页 > news >正文

创办一个网站需要多少费用成都企业网站制作

news 2025/11/15 8:31:07

创办一个网站需要多少费用,成都企业网站制作,视频号下载器手机版,杭州巴顿品牌设计论文地址#xff1a;#x1f430; 何凯明大神之作#xff0c;通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。一方面由于源代码本身并不复杂#xff0c;但是要求多GPU分布式训练#xff0c;以及需要下载ImageNet这个大规模…论文地址何凯明大神之作通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。一方面由于源代码本身并不复杂但是要求多GPU分布式训练以及需要下载ImageNet这个大规模的数据集另一方面本次只是测试和阅读算法原理的实现并不完整使用。因此重写了一个低配版流程不变超参数没有严格要求设置单GPU跑数据集自己配置几十张图片 no Shuffling BN。 queue 即文中所构建的字典起名为这个就是因为 C 中的queue 容器因为它是一种先进先出的数据结构。目录一、数据预处理二、前向传播网络结构算法流程一、数据预处理对同一张图片进行数据增强操作得到 query 和 key。增强操作包括 transforms.RandomResizedCrop(224, scale(0.2, 1.0)),transforms.RandomGrayscale(p0.2),transforms.ColorJitter(0.4, 0.4, 0.4, 0.4),transforms.RandomHorizontalFlip(),normalize,所以dataloader中的每个输入样本是一个样本对儿。通过下列方法实现 class TwoCropsTransform:Take two random crops of one image as the query and key.def __init__(self, base_transform):self.base_transform base_transformdef __call__(self, x):q self.base_transform(x)k self.base_transform(x)return [q, k] 二、前向传播网络结构代码中 encoder q 和 encoder k的网络结构用的都是ReNet 。ResNet最终的输出层包含了 (avgpool): AdaptiveAvgPool2d(output_size(1, 1))(fc): Linear(in_features2048, out_features128, biasTrue) 所以输出的特征向量维度为 NC。N为文中的Mini batch大小代码中的超参数为batch size。C应该没有什么具体的含义只是经验的设置为这一长度了没找出来C的大小关乎什么。其输出还经过了L2归一化。算法流程 1、 q 送入 encoder q 得到输出并经过L2归一化 (N,C) 2、 momentum 更新 key encoder。 3、 Shuffling BN当然我重写的代码并没有实现这个因为它需要多GPU但这并不妨碍认识它的作用文中所述大致意思由于ResNet使用了BN操作因此由于Batch 数据之间的交互使得模型利用它欺骗预设任务从而简单的找到一个低损失的解决方案然而这个解决方案效果并不好使得模型学习不到好的表征能力。其提出的Shuffling BN 首先把所有进程的Tensor的收集起来如果分布式训练一般每个GPU包含一个进程所以收集的数据总量大小为 num GPUs * batch size参考这里 x_gather concat_all_gather(x) 接下来制作打乱的索引整个过程如下所示 def _batch_shuffle_ddp(self, x):Batch shuffle, for making use of BatchNorm.*** Only support DistributedDataParallel (DDP) model. ***# gather from all gpusbatch_size_this x.shape[0]x_gather concat_all_gather(x) # 将所有进程的数据收集起来batch_size_all x_gather.shape[0]num_gpus batch_size_all // batch_size_this# random shuffle indexidx_shuffle torch.randperm(batch_size_all).cuda() # torch.randperm 将[0,n)数随机排列# broadcast to all gpustorch.distributed.broadcast(idx_shuffle, src0) # 将这个信息广播到所有其他进程# index for restoringidx_unshuffle torch.argsort(idx_shuffle) # 按照值大小顺序返回下标# shuffled index for this gpugpu_idx torch.distributed.get_rank() # 返回当前的进程idx_this idx_shuffle.view(num_gpus, -1)[gpu_idx] # idx_shuffle view 后 (num_gpus, batch size) 但是batch size中的索引是打乱顺序的return x_gather[idx_this], idx_unshuffle 最终返回随机打乱顺序后挑选的当前进程的 batch size 大小的数据也就是说进行 BN归一化后的数据已经不在同一个原来的批中了。 4、k 送入 encoder k 中在经过L2 归一化和q一样。 NC 5、Shuffling BN 对齐 q 和 k 如下面举例 # idx_shuffle tensor([10, 16, 13, 2, 4, 0, 6, 21, 22, 31, 29, 3, 19, 17, 14, 30, 28, 12,24, 26, 8, 25, 11, 18, 5, 7, 27, 1, 15, 23, 20, 9])# idx_unshuffle tensor([ 5, 27, 3, 11, 4, 24, 6, 25, 20, 31, 0, 22, 17, 2, 14, 28, 1, 13,23, 12, 30, 7, 8, 29, 18, 21, 19, 26, 16, 10, 15, 9])# q 的 idx_this tensor([10, 16, 13, 2, 4, 0, 6, 21])# k 的 idx_this tensor([ 5, 27, 3, 11, 4, 24, 6, 25]) 这里主要关注的点是这步是为了使 k对齐打乱顺序的q。q之前是打乱了顺序从而改变了每个batch的内容相当于从所有的batch中随机挑选了 batch size的q从而保证去除BN的影响。而 k 不需要再打乱了只需要从原有的batch size 数据分布中挑选出与q对应的数据即可。所以才在 shuffle BN q的过程中记录了indx unshuffle。这里的对应关系举例比如 index shuffle 中的 0 现在位于原来没打乱状态的索引 5处类似的 1 --27, 2--3, 以此类推。注不要被上面单进程的即idx this不对齐所迷惑上面的只是分进程处理的分布式训练最终会把所有进程的数据拼接起来一起处理所以所有进程的数据对齐就行。 6、计算损失即文中公式1 其中用到的计算方法举例如下分别用爱因斯坦求和公式实现参考这里 a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 2]]) b torch.tensor([[2, 2, 2], [2, 2, 2], [1, 1, 1]]) print(a) print(b) c torch.einsum(nc, nc-n, [a, b]) # (3) d c.unsqueeze(-1) # (3,1) print(c)# 输出 tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]]) tensor([[2, 2, 2],[2, 2, 2],[1, 1, 1]]) tensor([12, 6, 7]) tensor([[12],[ 6],[ 7]]) a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 3]]) # (3,3) a1 torch.tensor([[1, 2], [1, 1], [2, 2]]) # (3,2) c torch.einsum(nc,ck-nk, [a, a1]) print(a) print(a1) print(c)# 输出 tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]]) tensor([[1, 2],[1, 1],[2, 2]]) tensor([[ 9, 10],[ 4, 5],[10, 12]]) 这里的self.queue 即文中的字典 queue初始化为 self.register_buffer(queue, torch.randn(dim, K)) self.queue nn.functional.normalize(self.queue, dim0) K为字典的长度默认设置65536。这里为什么设置为这个可能是由于ImageNet数据集比较大所以设置的字典比较长具体的长度设置好像没有做固定的要求来源于github官网。但代码中有要求K必须是batch size 的倍数这个为了确保字典的更新方便执行入栈和弹出操作。这个字典像是C的 queue容器的FIFO数据结构即先进先出 self.K % batch_size 0 l_pos torch.einsum(nc,nc-n, [q, k]).unsqueeze(-1) # (8,1) 对应元素相乘并第一维加和# negative logits: NxKl_neg torch.einsum(nc,ck-nk, [q, self.queue.clone().detach()]) # (8,65536) 矩阵相乘# logits: Nx(1K)logits torch.cat([l_pos, l_neg], dim1) # (8,65537)# apply temperaturelogits / self.Tlabels torch.zeros(logits.shape[0], dtypetorch.long).cuda() # (8,)loss criterion(output, target) 这里看标签都是0即第一个也就是0维数据为正样本。因为在拼接cat的时候正样本是在前面的。 7、更新字典按mini batch 更新。具体地如果训练次数*mini batch size 小于字典长度则字典queue每次都会填充新的key。若训练次数*mini batch size 大于字典长度则之前的被替换掉。 ptr (ptr batch_size) % self.K # move pointer 8

查看全文

http://www.zqtcl.cn/news/815044/