网站域名如何查询,响应式营销型网站建设,黄岛做网站找哪家好,怎么给网站做备份呢ChatGPT狂飙160天#xff0c;世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注 近日#xff0c;来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注 近日来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。 近期扩散模型凭借其出色的性能已超越 GAN 和自回归模型成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型如 SD、SDXL、Midjourney 和 Imagen展现了生成高质量图像的惊人能力。通常这些模型在特定分辨率下进行训练以确保在现有硬件上实现高效处理和稳定的模型训练。 图 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 图像的对比。[1] 然而当这些预训练的扩散模型在超出训练分辨率时生成图像通常会出现模式重复和严重的人工伪影artifacts问题如图 1 最左侧所示。 为了解决这一问题来自香港中文大学 - 商汤科技联合实验室等机构的研究者们在一篇论文中深入研究了扩散模型中常用的 UNet 结构的卷积层并从频域分析的角度提出了 FouriScale, 如图 2 所示。 图 2 FouriScale 的流程橙色线示意图目的是保证跨分辨率的一致性。 FouriScale 通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层旨在实现不同分辨率下的结构和尺度一致性。配合「填充然后裁剪」策略该方法能够灵活生成不同尺寸和长宽比的图像。此外借助 FouriScale 作为指导该方法在生成任意尺寸的高分辨率图像时能够保证完整的图像结构和卓越的图像质量。FouriScale 无需任何离线预计算具有良好的兼容性和可扩展性。 定量和定性实验结果表明FouriScale 在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。 论文地址https://arxiv.org/abs/2403.12963 开源代码https://github.com/LeonHLJ/FouriScale 论文标题FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis 方法介绍 1、空洞卷积保证跨分辨率下的结构一致性 扩散模型的去噪网络通常是在特定分辨率的图像或潜在空间上训练的这个网络通常采用 U-Net 结构。作者的目标是在推理阶段使用去噪网络的参数生成分辨率更高的图像而无需重新训练。为了避免推理分辨率下的结构失真作者尝试在默认分辨率和高分辨率之间建立结构一致性。对于 U-Net 中的卷积层结构一致性可表述为 其中 k 是原本的卷积核k 是为更大分辨率定制的新卷积核。根据空间下采样的频域表示如下 可以将公式3写为 这个公式表明了理想卷积核 k 的傅里叶频谱应该是由 s×s 个卷积核 k 的傅里叶频谱拼接而成的。换句话说k 的傅里叶频谱应该有周期性重复这个重复模式是 k 的傅里叶频谱。 广泛使用的空洞卷积正好满足这个要求。空洞卷积的频域周期性可以通过下式表示 当利用预训练扩散模型训练分辨率为h,w生成 (H,W) 的高分辨率图像时空洞卷积的参数使用原始卷积核扩张因子为 (H/h, W/w)是理想的卷积核 k。 2、低通滤波保证跨分辨率下的尺度一致性 然而只利用空洞卷积无法完美地解决问题如图 3 左上角所示只使用空洞卷积仍然在细节上存在模式重复的现象。作者认为这是因为空间下采样的频率混叠现象改变了频域分量导致了不同分辨率下频域分布的差异。为了保证跨分辨率下的尺度一致性他们引入了低通滤波来过滤掉高频分量以去除空间下采样后的频率混叠问题。从图 3 右侧对比曲线可以看到在使用低通滤波后高低分辨率下的频率分布更加接近从而保证了尺度一致。从图 3 左下角图看到在使用低通滤波后细节的模式重复现象有明显地改善。 图 3 (a) 是否采用低通滤波的视觉对比。b不采用低通滤波的傅立叶相对对数幅值曲线。(c) 采用低通滤波的傅立叶相对对数幅值曲线。 3、适应于任意尺寸的图像生成 以上的方式只能适应于生成分辨率与默认推理分辨率的长宽比一致时为了使 FouriScale 适应于任意尺寸的图像生成作者采用了一种「填充然后裁剪」的方式方法 1 中展示了结合了该策略的 FouriScale 的伪代码. 4、FouriScale 引导 由于 FouriScale 中的频域操作不可避免的使生成的图像出现了细节缺失与不期望的伪影问题。为了解决这一问题如图 4作者提出了将 FouriScale 作为引导的方式。具体来说在原本的条件生成估计以及无条件生成估计的基础上他们引入一个额外的条件生成估计。这个额外的条件生成估计的生成过程同样采用空洞卷积但是使用更加温和的低通滤波从而保证细节不丢失。同时他们将利用 FouriScale 输出的条件生成估计中的注意力分数替换掉这一额外的条件生成估计中的注意力分数由于注意力分数包含着生成图像中的结构信息这一操作将 FouriScale 中正确的图像结构信息引入同时保证了图像质量。 图 4 (a) FouriScale 引导示意图。b不采用 FouriScale 作为引导的生成图像有明显的伪影和细节错误。(c) 采用 FouriScale 作为引导的生成图像。 实验 1. 定量试验结果 作者遵循 [1] 的方法测试了三个文生图模型包括 SD 1.5SD 2.1 和 SDXL 1.0生成四种更高分辨率的图像。测试的分辨率是它们各自训练分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素数量。在 Laion-5B 上随机采样 30000/10000 个图文对测试的结果如表 1 所示 表 1 不同的无需训练方法的定量结果对比 他们的方法在各个预训练模型不同分辨率下都获得了最优的结果。 2. 定性试验结果 如图 5 所示他们的方法在各个预训练模型不同分辨率下都能够保证图像生成质量与一致的结构。 图 5 不同的无需训练方法的生成图像对比 结论 本文提出了 FouriScale 用于增强预训练扩散模型生成高分辨率图像的能力。FouriScale 从频域分析出来通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性解决了重复模式和结构失真等关键挑战。采用「填充然后裁剪」策略并利用 FouriScale 作为指导增强了文本到图像生成的灵活性和生成质量同时适应了不同的长宽比生成。定量和定性的实验对比表明FouriScale 能够在不同预训练模型不同分辨率下都能够保证更高的图像生成质量。 ChatGPT狂飙160天世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注