十大电子游戏平台网站,东方商城网,网页生成app,网站建设设计图片前言
StabilityAI在春节期间发布了新的一代文生图模型Stable Cascade#xff0c;Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型#xff0c;为质量、灵活性、微调和效率设定了新的标准#xff0c;着重于进一步消除硬件障碍。相比Stable Diffusion XL#…前言
StabilityAI在春节期间发布了新的一代文生图模型Stable CascadeStable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型为质量、灵活性、微调和效率设定了新的标准着重于进一步消除硬件障碍。相比Stable Diffusion XL它不仅更快而且效果更好。 Huggingface模型下载https://huggingface.co/stabilityai/stable-cascade AI快站模型免费加速下载https://aifasthub.com/models/stabilityai/stable-cascade 技术细节
Stable Cascade与我们的Stable Diffusion系列模型不同它基于包含三个不同模型的管道阶段A、B和C。这种架构允许对图像进行分层压缩利用高度压缩的潜在空间实现卓越的输出。让我们看看每个阶段是如何协同工作的 潜在生成器阶段阶段C将用户输入转化为紧凑的24x24潜在表示然后传递给潜在解码器阶段阶段AB用于压缩图像类似于Stable Diffusion中VAE的工作但实现了更高的压缩比。
通过将文本条件生成阶段C与解码到高分辨率像素空间的过程阶段AB分离我们可以单独对阶段C进行额外的训练或微调包括ControlNets和LoRAs这比训练一个类似大小的Stable Diffusion模型成本降低了16倍。阶段A和B可以选择性地进行微调以获得额外的控制但这将类似于微调Stable Diffusion模型中的VAE。对于大多数用途仅训练阶段C并使用原始状态的阶段A和B就足够了。
阶段C和B将发布两种不同的模型阶段C的1B和3.6B参数模型阶段B的700M和1.5B参数模型。推荐使用3.6B参数的阶段C模型因为该模型具有最高质量的输出。然而对于那些希望专注于最低硬件要求的用户可以使用1B参数版本。对于阶段B两者都能获得出色的结果然而15亿参数的版本在重建细节方面更为出色。得益于Stable Cascade的模块化方法推理所需的VRAM预计可以控制在大约20GB但通过使用较小的变体如前所述这可能也会降低最终输出质量可以进一步降低。
比较
在我们的评估中我们发现Stable Cascade在几乎所有模型比较中无论是提示对齐还是美学质量方面都表现最佳。下图展示了使用一系列parti提示和美学提示进行人类评估的结果 上图比较了Stable Cascade30个推理步骤与Playground v250个推理步骤、SDXL50个推理步骤、SDXL Turbo1个推理步骤和Würstchen v230个推理步骤。 上图展示了Stable Cascade、SDXL、Playground v2和SDXL Turbo之间的推理速度差异。
Stable Cascade专注于效率通过其架构和更高压缩的潜在空间得以体现。尽管最大模型比Stable Diffusion XL多出14亿参数但如它的推理时间仍然更快。
附加功能
除了标准的文图生成外Stable Cascade还可以生成图像变体和图像到图像生成。
图像变体通过使用CLIP从给定图像中提取图像嵌入然后将其返回给模型来工作。下面你可以看到一些示例输出。左侧图像为原图其右侧的四张为生成的变体。 图像到图像工作通过简单地向给定图像添加噪声然后以此为起点进行生成。这里有一个示例对左侧图像进行噪声处理然后从那里开始生成。 Stability AI还发布了用于训练、微调、ControlNet和LoRA的所有代码以降低进一步试验这一架构的要求。以下是我们将与模型一起发布的一些ControlNets
修复/外扩输入一张图像并配对一个遮罩和文本提示。模型将按照提供的文本提示填充图像的遮罩部分。 Canny Edge按照给定图像输入到模型的边缘生成新图像。根据Stability AI 的测试它还可以扩展草图。 2倍超分辨率将图像放大到其边的2倍例如将1024x1024图像转换为2048x2048输出也可以用于由阶段C生成的潜在表示。 模型下载
Huggingface模型下载
https://huggingface.co/stabilityai/stable-cascade
AI快站模型免费加速下载
https://aifasthub.com/models/stabilityai/stable-cascade