当前位置：首页 > news >正文

php成品网站哪些网站设计的比较好

news 2025/11/15 7:11:05

php成品网站,哪些网站设计的比较好,免费crm系统手机版,常德网站优化论文地址#xff1a;https://arxiv.org/abs/2201.11279 代码地址#xff1a;https://github.com/zudi-lin/rcan-it 论文小结本文的工作#xff0c;就是重新审视之前的RCAN#xff0c;然后做实验来规范化SR任务的训练流程。此外#xff0c;作者得出一个结论#xff1a;…论文地址https://arxiv.org/abs/2201.11279 代码地址https://github.com/zudi-lin/rcan-it 论文小结本文的工作就是重新审视之前的RCAN然后做实验来规范化SR任务的训练流程。此外作者得出一个结论尽管RCAN是一个非常大的SR架构拥有超过400个卷积层但作者认为限制模型能力的主要问题仍然是欠拟合而不是过拟合。增加训练迭代次数能明显提高模型性能。而应用正则化技术通常会降低预测结果。作者将自己的模型表示为RCAN-it。Residual Channel Attention Network-it stands for imporved training 总得来说收获点就一句话模型性能受限于欠拟合而不是过拟合。所以使用更大的训练步幅因为原始训练没陷入长时间的收敛平原仍在缓慢上升减少使用正则化技术。论文简介通过更先进的训练策略本文使用RCAN在Manga109数据集的 × 2 \times2 ×2任务上得到了 0.44 d B 0.44 dB 0.44dB的PSNR值提升达到了 39.88 d B 39.88dB 39.88dB。这个指标已经足够优秀可以媲美或者超过SOTA算法比如CRAN和SwinIR。结合自集成推断self-ensemble inferencePSNR可以进一步提升到 40.04 d B 40.04dB 40.04dB优于现有的所有方法不管带不带自集成推断结构。在广泛使用的DF2K数据集上作者发现模型性能受限于欠拟合而不是过拟合。所以作者基于这个观察可以得出几个结论首先简单地增加训练迭代次数可以明显提高分数而正则化技术通常会降低SR模型的性能。其次使用最先进的优化器和学习率调度策略的大批量训练方案large-batch training scheme该模型可以在减少4倍的训练时间情况下匹配原始的训练结果。第三将ReLU更改为SiLU这样简单的架构修改可以实现延长两倍训练时间的类似训练结果。第四使用 × 2 \times2 ×2模型作为 × 3 \times3 ×3模型和 × 4 \times4 ×4模型的初始化可以减少训练时间和成本同时仍然获得有竞争力的性能。有一些工作为了保证训练的稳定性使用warm-up技术来避免学习率突然上升。像LAMB这样的优化器通过分层自适应机制对Adam优化器进行了改进。与超分任务不同图像识别的主要挑战是过度拟合。所以权重衰减、更强的数据增强Mixup和随机深度等正则化技术通常会提高深度分类模型的准确性。本文证明了深度超分模型的性能受到欠拟合的限制。方法介绍网络结构 RCAN是当时较为流行的一种SR架构其是对EDSR等工作进行了三点主要改进。 1它在每个残差块的第二个 3 × 3 3\times3 3×3卷积层之后使用SE Blockssqueeze-excitation或者channel-attention block来对不同通道进行重新加权。 2它有新颖的残差设计其带有长跳跃连接以绕过低频信息并有利于更好地学习高频细节。 3RCAN是一个非常深的架构具有很大的模型容量因为它有 200 200 200个残差块和 400 400 400多个卷积层。本文的工作基本保持RCAN架构不变。在架构角度上唯一的修改就是使用SiLUSigmoid Linear Unit也成为了Swish激活函数代替了原始的ReLU激活函数。Swish激活函数的表示如下其中 σ ( x ) \sigma(x) σ(x)是sigmoid函数。 f ( x ) x ∗ σ ( x ) (1) f(x)x*\sigma(x)\tag{1} f(x)x∗σ(x)(1) 训练策略大batchSize优化器原始的RCAN训练策略是使用Adam优化器小的batchSize B S 16 BS16 BS16小的学习率 η 1 0 − 4 \eta10^{-4} η10−4。这个训练组合收敛缓慢大概需要在单个GPU上收敛 7 7 7天。所以作者先使用多GPU训练以支持大的batchSize。由于梯度更新下降的总数减少所以应用了一个线性缩放规则mini-batchSize放大了 k k k倍那么学习率也乘以 k k k倍。为了训练稳定性作者使用 L a m b Lamb Lamb优化器这是一种专为大批量large-batch训练而设计的分层自适应优化器。同时还使用余弦退火代替了原始的多步学习率调度器其唯一超参数就是迭代或epochs的总数。通过采用这些技术作者有效地将batchSize大小增大了 16 16 16倍并通过并行性大大节省了训练时间。更长的训练作者发现如下图左所示RCAN在baseline训练管道要结束的时候RCAN的验证集PSNR指标仍在提高这表明仍存在欠拟合问题。所以增加训练迭代次数可以有效地减轻欠拟合问题。大patchSize进行finetune 在Swinir有验证使用更大patchSize的patch能提高性能。但增大输入的长宽尺寸会带来GPU内存的急剧上升导致训练耗时增加甚至在硬件预算上不可行。所以作者将训练管道分为了两个阶段1正常的patchSize尺寸 48 × 48 48\times48 48×482更大的patchSize尺寸 64 × 64 64\times64 64×64用于finetune同时使用更少的迭代次数。在更大的patchSize尺寸时为了满足GPU内存会缩小batchSize。正则化技术测试了一些数据增强技术mixup随机深度随机翻转和通道打乱channel shuffle。mixup使用Beta( 0.15 , 0.15 0.15,0.15 0.15,0.15)来生成随机插值权重。对于随机深度作者使用 0.5 0.5 0.5的概率随机跳过一个残差块。尽管增加正则化可以有效地提高图像识别大模型的性能但作者发现RCAN并不能从正则化中收益。因为它会出现欠拟合而不是过拟合。热启动 RCAN对于 × 2 × 3 × 4 \times2\times3\times4 ×2×3×4模型的主体结构是一样的除了最后的预测模块一个卷积和pixel shuffle。所以可以使用 × 2 \times2 ×2的权重为 × 3 \times3 ×3模型和 × 4 \times4 ×4模型进行初始化。训练的时候由于尾部的预测模块不同。所以可以先将主体结构进行冻结只finetune尾部的预测模块速度快只需要不到 1 1 1小时然后再一起finetune整个模型。论文实验原论文实验管道和超参数更变使用DF2K数据集用于训练DF2K由DIV2K和Flickr2K组成总共3550张图像。验证集为Set5、Set14、B100、Urban100、Manga109。指标评价选择PSNR和SSIM。指标评估的颜色空间为YCbCr空间的Y通道。损失函数都采用 L 1 L1 L1函数。使用随机水平和垂直翻转模型选择的是RCAN有 10 10 10个残差组residual groups, RG每个残差组有20个残差模块和一个卷积层。所有卷积层的通道数为 64 64 64除了输入和上采样层。原始训练策略是batchSize为 16 16 16学习率为 η 1 0 − 4 \eta10^{-4} η10−4优化器为Adam β 1 0.9 , β 2 0.999 \beta_10.9,\beta_20.999 β10.9,β20.999训练 1725 K 1725K 1725K次迭代每经过 20 % 20\% 20%次迭代衰减一半的学习率。本文的训练策略更改为batchSize为 64 64 64学习率 η \eta η使用线性所发规则。为了训练的稳定性将Adam优化器更改为Lamb优化器。原始训练策略使用1张V100的GPU作者使用4张。经过了 80 K 80K 80K次迭代训练了1.6天。由下表的对比可以看出如果学习率 η \eta η是严格遵守线性缩放规则 0.0016 256 16 ∗ 1 0 − 4 0.0016\frac{256}{16}*10^{-4} 0.001616256∗10−4那么对比原有的管道会有指标上的性能差异。但如果使用 2 ∗ 1 0 − 4 2*10^{-4} 2∗10−4作为起始点即 0.0032 256 16 ∗ 2 ∗ 1 0 − 4 0.0032\frac{256}{16}*2*10^{-4} 0.003216256∗2∗10−4那么就有和原始管道相近的性能但只使用 23 % 23\% 23%的时间。所以本文的baseline超参数为 B S 16 η 0.0032 BS16\eta0.0032 BS16η0.0032。需要注意的是这个RCAN指标是比原论文高的。因为其使用了更大的数据集DF2K原文只使用了DIV2K数据集。黑盒测试数值无实际参考意义。另外作者注意到使用更大的学习率会造成训练的不稳定。比如当 η 0.0064 \eta0.0064 η0.0064时在大约 2 K 2K 2K次迭代之后会陷入无法收敛阶段NaN。当 η 0.0048 \eta0.0048 η0.0048时在大约 16 K 16K 16K次迭代后会陷入无法收敛阶段NaN。训练管道修改消融学习下表展示了架构修改、训练策略修改、正则化变化的消融学习。对PSNR指标的增长有用的训练策略调整为激活函数从ReLU改为SiLU更长的训练周期训练RCAN共 160 K 160K 160K是baseline的两倍使用更大patchSize输入进行finetune。这三个更改对五个验证集都有指标的提升且是相互独立的。三个更改平均能带来 0.042 d B 0.042dB 0.042dB的提升。同时从上表可以看出一些数据增强都是会降低验证集的PSNR指标的。集成效果三个训练策略的组合带来的指标效果如下表所示组合起来也带来提升。最后一行 Oracle结果是在每个测试集上分别finetune的结果也就是过拟合的结果用以查看RCAN的上限值的。本文最好的RCAN效果和Oracle对比仍有 0.388 0.388 0.388的PSNR指标差距。这表明即使使用相对“过时”的RCAN架构仍有很大的改进空间。另外已知Set5数据集有JPEG伪影Manga数据集由漫画图像组成合并本封面是彩色的。相关训练结果 warm start的训练以及扩大训练迭代次数的结果如下表。 RCAN、RCAN-it与当时其他的SOTA超分算法进行定量对比。在公开数据集上的可视化对比。具体来说RCAN-it 重建了具有更高对比度的条带图案而其他方法往往会产生不切实际的伪影图 3第 4 行。此外在以前的模型中可以消除背景对比度较低的结构而本文的 RCAN-it 可以保留它们图 3第一行。请注意除了激活函数的小修改之外RCAN-it 与现有方法相比只需更好的训练即可重建高频细节而不是引入专门用于学习高频分量的新模块或结构。

查看全文

http://www.zqtcl.cn/news/870616/