zhihu网站建设,建设手机网站多少钱,网站设计 书籍,查看网站空间大小SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis
论文链接 代码链接
介绍
背景#xff1a;Stable Diffusion在合成高分辨率图片方面表现出色#xff0c;但是仍然需要提高本文提出了SD XL#xff0c;使用了更大的UNet网络#xff0c;以及增…SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis
论文链接 代码链接
介绍
背景Stable Diffusion在合成高分辨率图片方面表现出色但是仍然需要提高本文提出了SD XL使用了更大的UNet网络以及增加了一个Refinement Model以进一步提高图片质量。
提高SD的措施
用户偏好调查比较 可以看到在不增加Refiner模型的情况下SD XL的效果已经比SD 1.5和2.1好很多了。SD XL的模型结构 可以看到SD XL由一个SD base模型和一个Refiner模型组成二者共用一个提示词输入前者的输出同时也是后者的输入。Refiner模型其实是一个图片编辑模型。 Architecture Scale transformer block方面忽略高层级的块而使用低层级的2和10特征块不懂使用两个Text Encoder并将它们的输出特征拼接到一起额外使用了Pooled text emb作为条件输入不懂 Micro-Conditioning Conditioning the Model on Image Size过去的方法要么选择忽略小于特定尺寸的图片要么选择放缩图片前者忽略了大量的图片后者可能造成图片模糊。SD XL中将图片尺寸也当做条件输入这样在推理阶段用户就可以指定生成图片的尺寸如图5所示。 Conditioning the Model on Cropping Parameters 由于SD 1和2系列使用了图片裁剪的方式进行数据增强导致了生成的图片中有些物体只展现了一部分如图4所示。SD XL通过将左上方 的裁剪坐标当做条件输入让模型学到了裁剪坐标的信息。在推理的过程中将裁剪坐标条件输入设置为00即可输出物体在图片中间的图片。 Multi-Aspect Training 常见情况下SD模型的输出是一个方形的图片但是在实际应用中图片的尺寸比例会有不同的要求。为了适应这一需求SD XL将训练图片按照长宽比划分为不同的数据桶。在训练过程中每个batch中的图片都来自同一个桶每个训练步数中的数据在不同桶中之间交替选择。此外桶的中数据的尺寸也被作为条件输入。 Improved Autoencoder SD XL重新训练了一个更大的autoencoder可以提高生成图片的局部高频细节。从表3中可以看到使用提升后的autoencoder后SD XL的重构性能在多个方面都比SD 1和2有所提高。 Putting Everything Together 最终的SD XL是使用前面的所有策略共同训练得到的。 Refinement Stage使用上述方法训练的模型有些时候仍然会生成低质量的图片因此为了提高生成高分辨率的图片的能力SD XL使用图片编辑技术添加了一个Refiner模型这个模型是可选的。
未来的工作
作者认为未来还值得研究方向如下
单阶段SD XL是一个两阶段的模型时间和空间开销更大。研究一个同样效果或更好效果的单阶段模型很有必要。文本合成SD XL中采用了更多和更大的text encoder也取得了更好的效果。使用byte-level tokenizers [52, 27]或者只是使用更大规模的文本编码器是提高SD XL文本处理能力的可能途径。结构作者们尝试过一些Transformer-based的模型比如UViT [16] and DiT [33]但是没有发现好的效果。然而作者们仍然认为Transformer为主的模型是一个方向。新的Stable Diffusion 3正是采用了DiT [33]的技术说明作者们坚持的优化方向是正确的蒸馏使用模型蒸馏技术减小模型的体积减少空间和时间开销。事实上SD系列一直有蒸馏版本的模型比如SD XL Turbo。SD XL是在离散时间模式下训练的需要偏移噪声预测以生成美观的图片。EDM-framework是一个很有潜力的工作其支持连续时间可以提高采样灵活性而不需要噪音校对。不是很懂
其它
重要的相关工作 图片编辑模型SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations