百度手机网站提交,网站开发与推广,学做衣服网站,过期域名AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion (Paper reading)
Yitong Jiang, The Chinese University of Hong Kong, arXiv23, Code, Paper
1. 前言
我们提出了一种具有潜在扩散的一体化图像恢复系统#xff0c;名为AutoDIR#xff0c;它可以…AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion (Paper reading)
Yitong Jiang, The Chinese University of Hong Kong, arXiv23, Code, Paper
1. 前言
我们提出了一种具有潜在扩散的一体化图像恢复系统名为AutoDIR它可以自动检测和恢复具有多种未知退化的图像。我们的主要假设是许多图像恢复任务如超分辨率、运动去模糊、去噪、弱光增强、去雾和去噪通常可以分解为一些共同的基算子这些算子可以在不同方向上提高图像质量。AutoDIR旨在通过与多个图像恢复任务的联合训练学习一个能够执行这些基本算子的统一图像恢复模型。具体而言AutoDIR由基于CLIP的盲图像质量评估BIQA模块、基于潜在扩散的多功能图像恢复AIR模块和结构校正模块组成BIQA模块自动检测输入图像的未知图像退化AIR模块处理多种类型的图像退化SCM模块进一步恢复图像结构。广泛的实验评估表明AutoDIR在更广泛的图像恢复任务中优于最先进的方法。AutoDIR的设计还实现了灵活的用户控制通过文本提示和对新任务的泛化作为图像恢复的基础模型。
2. 整体思想
整体思想就是分类不同降质然后混合训练的扩散模型增强模型每一步根据分类的类型处理不同降质。仅仅扩散模型效果可能不好也可能图片的condition方式不好。微调整个CLIP感觉有点多余不如用分类器。思想是普通的实验不太充分。
3. 方法 我们提出了AutoDIR这是一种用于图像恢复的自动一体式模型能够处理多种类型的图像退化包括弱光、雾等。左通过AutoDIR进行多任务图像恢复的管道其中所述盲图像质量评估BIQA模块检测损坏图像的主要退化并用文本提示指示基于潜在扩散的一体式图像恢复模块AIR进行恢复。结构校正模块SCM进一步改进了恢复图像的细节。对于退化程度未知的图像例如以绿色虚线为边界的显示不足的相机图像AutoDIR会自动将任务分解为多个步骤。右图AutoDIR可以有效地恢复不同退化的干净图像并可以处理未知退化的图像。放大查看详细信息。AutoDIR由一下结构组成
盲图像质量评估BIQA该模块自动识别输入图像中存在的主要退化如噪声、模糊、雾度并生成相应的文本提示表示为eauto随后用于图像恢复过程。一体式图像恢复AIR该模块基于预先训练的潜在扩散模型进行微调。在来自BIQA或用户提供的文本嵌入 e a u t o e_{auto} eauto的指导下AIR模块输出恢复的图像 I s d I_{sd} Isd。结构校正模块SCMSCM是一个轻量级的卷积网络旨在进一步恢复图像细节并校正 I s d I_{sd} Isd中的剩余失真。该恢复过程的输出是最终恢复的图像表示为 I r e s I_{res} Ires。
3.1 盲图像质量评估BIQA
我们使用CLIP模型作为我们的BIQA骨干。然而由于CLIP是为强调语义信息而非图像质量的视觉识别任务预先训练的因此它不能直接用于BIQA。下图左可以看到原始CLIP对于清晰和有雾的图像无法在空间中分离作者的目的是得到右边的即不同任务的图像属于特定的空间。
为了克服这一点作者分两个步骤来解决这个问题i我们构建了一个新的图像质量评估任务来微调CLIP。ii我们为图像质量感知训练提出了一个新的正则化术语。 首先作者冻结文本编码器并全微调图像编码器。作者在这里构建了正则本文输入也就是固定句式只改变 c i { } c_i\{\} ci{}然后将文本输入到 ϵ T \epsilon_T ϵT中且降质图像输入到 ϵ I \epsilon_I ϵI中获得的本文和图像编码计算他们的cosine相似性 然后通过softmax取最大概率获得相应的text embedding: 然后作者使用多类保真度损失(multi-class fidelity loss)对图像编码器进行微调 其中 y ( c i ∣ I ) y(c_i|I) y(ci∣I)当 c i c_i ci属于 I I I图片当降质类型为1其他为0。这个损失的意思就是最大化 p ^ ( c i ∣ I ) \hat p(c_i|I) p^(ci∣I)这个概率。这种微调的方式还是无法区分域如第一张图b所示。作者提出语义不可知损失(semantic-agnostic loss)解决这个问题(见第一张图c) 这个损失的意思和 L F I D L_{FID} LFID正好相反这个损失是降质图像对应的GT匹配当前类型的概率尽可能的小则最后的总损失函数为 L B I Q A L F I D L S A L_{BIQA} L_{FID} L_{SA} LBIQALFIDLSA
3.2 All in one 图像复原 (AIR)
AIR模块是基于潜在扩散模型设计的利用文本和图像嵌入条件来恢复具有生成先验的图像 I s d I_{sd} Isd。为了使文本条件能够指导不同的图像恢复我们结合了交叉注意将文本条件映射到潜在扩散模型的时间条件UNet主干的中间层。对于图像条件我们将图像条件 z I z_I zI与噪声潜像 z t z_t zt连接起来并将它们馈送到UNet主干。
3.3 结构校正模块 (SCM
具体方法是一个神经网络F输入是latent diffusion的输出和降质图像concat起来。这么做的话我们需要先通过扩散采样得到输出 z z z这是费时的。作者直接用任意时间步预测的 z ~ \tilde z z~来作为扩散采样的输出 z z z损失函数如下 L S C M ∣ ∣ I g t − ( F ( D ( z ~ ) , I ) D ( z ~ ) ) ∣ ∣ 2 2 L_{SCM} ||I_{gt}-(F(D(\tilde z), I)D(\tilde z))||_2^2 LSCM∣∣Igt−(F(D(z~),I)D(z~))∣∣22 这里F是SCM模型I是降质图像D是VAE的解码器其实F就是学习残差。如下图可以看到他这个扩散模型的效果很差啊没有这个SCM的话效果一定不行所以他加SCM这个。 4. 实验
·不知道作者为什么只对比了2个而且SD不算吧至少也应该比一比不同任务的baselines啊 ·所谓的多步骤处理不同降质消融实验。