当前位置：首页 > news >正文

用电脑做网站的历史在哪里找做户外的网站

news 2025/11/14 18:21:19

用电脑做网站的历史在哪里找,做户外的网站,常州网上车管所,大数据精准营销论文《Adding Conditional Control to Text-to-Image Diffusion Models》目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的ControlNet 2.3 训练 2.4 推理 3.实验结果 3.1 定性结果 3.2 消融实验 3.3 和之前结果比较 3.4 数据集大小的影响 4.结…《Adding Conditional Control to Text-to-Image Diffusion Models》目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的ControlNet 2.3 训练 2.4 推理 3.实验结果 3.1 定性结果 3.2 消融实验 3.3 和之前结果比较 3.4 数据集大小的影响 4.结论 1.背景介绍 Stable Diffusion大模型的开源使得AI绘画的应用变得空前火热。虽然Stable Diffusion生成的图片质量远超以往的GANVAE等但还达不到精细化可控生成的目的。文本到图像模型在控制图像的空间构图方面是有限的仅仅通过文本提示很难精确地表达复杂的布局、姿势、形状和形式。ControlNet在Stable Diffusion的基础上加入了更多可控生成方式在AI绘图大规模商用上成为可能。此外ControlNet和SAM同时获得了ICCV2023的最佳论文。让我们一起来看一看的魔力~ 下面是ControlNet相关的一些资料本文写作业参考了几位博主的文章已经在下面提供了链接。论文链接https://arxiv.org/pdf/2302.05543.pdf 代码地址GitHub - lllyasviel/ControlNet: Let us control diffusion models! GitHub - Mikubill/sd-webui-controlnet: WebUI extension for ControlNet 论文解读https://zhuanlan.zhihu.com/p/664595339 ControlNet 是一种神经网络架构旨在将空间条件控制添加到大型预训练的文本到图像扩散模型中。 ControlNet 将锁定生产就绪的大型扩散模型并重用由数十亿图像预先训练的强大主干中的深层和鲁棒编码层以学习多样化的条件控制集。神经架构通过“零卷积”零初始化的卷积层连接使参数逐渐从零增长并确保不会有有害噪声影响微调过程。使用Stable Diffusion测试各种条件控制例如边缘、深度、分割、人体姿态等具有单个或多个条件带有或不带有提示。表明 ControlNet 的训练过程对于小型50k和大型1m数据集都具有很强的鲁棒性。大量的实验结果表明ControlNet 有助于更广泛的应用于控制图像扩散模型。通过让用户提供额外的图像来直接指定所需图像的组成实现更精细的空间控制呢。这些额外的图像例如边缘图、人体姿态骨架、分割图、深度、法线等通常被视为对图像生成过程的条件约束。特定条件下的训练数据量显著小于可用于一般文本到图像训练的数据量。直接微调或继续训练具有有限数据的大型预训练模型可能会导致过拟合和灾难性遗忘。因此通过限制可训练参数的数量或等级可以缓解这种遗忘。 ControlNet 通过锁定大型预训练模型的参数并复制其编码层保留了该大型模型的质量和能力。这种架构将大型预训练模型视为学习各种条件控制的强大主干网络。可训练的副本和原始锁定的模型通过零卷积层连接权重初始化为零以便在训练过程中逐渐增长。这种架构确保在训练开始时不会向大型扩散模型的深层特征添加有害噪声并保护可训练副本中的大型预训练主干网络免受此类噪声的破坏。 ControlNet 是一种神经网络架构旨在将空间条件控制添加到大型预训练的文本到图像扩散模型中。 ControlNet 将锁定生产就绪的大型扩散模型并重用由数十亿图像预先训练的强大主干中的深层和鲁棒编码层以学习多样化的条件控制集。神经架构通过“零卷积”零初始化的卷积层连接使参数逐渐从零增长并确保不会有有害噪声影响微调过程。使用Stable Diffusion测试各种条件控制例如边缘、深度、分割、人体姿态等具有单个或多个条件带有或不带有提示。表明 ControlNet 的训练过程对于小型50k和大型1m数据集都具有很强的鲁棒性。大量的实验结果表明ControlNet 有助于更广泛的应用于控制图像扩散模型。通过让用户提供额外的图像来直接指定所需图像的组成实现更精细的空间控制呢。这些额外的图像例如边缘图、人体姿态骨架、分割图、深度、法线等通常被视为对图像生成过程的条件约束。特定条件下的训练数据量显著小于可用于一般文本到图像训练的数据量。直接微调或继续训练具有有限数据的大型预训练模型可能会导致过拟合和灾难性遗忘。因此通过限制可训练参数的数量或等级可以缓解这种遗忘。 ControlNet 通过锁定大型预训练模型的参数并复制其编码层保留了该大型模型的质量和能力。这种架构将大型预训练模型视为学习各种条件控制的强大主干网络。可训练的副本和原始锁定的模型通过零卷积层连接权重初始化为零以便在训练过程中逐渐增长。这种架构确保在训练开始时不会向大型扩散模型的深层特征添加有害噪声并保护可训练副本中的大型预训练主干网络免受此类噪声的破坏。图1 sd结合controlnet进行生成 2.原理详解图2:神经块以特征映射x作为输入输出另一个特征映射y如(a)所示。为了将ControlNet添加到block通过锁定neural network block并创建一个可训练的副本使用zero convolution将它们连接在一起如(b)所示。 2.1 Controlnet ControlNet向神经网络块注入了额外的条件如图2。假设F·Θ是这样的训练好的神经块参数为Θ它将输入特征图x转换为另一个特征图y。为了将ControlNet添加到预训练的神经块中需锁定原始块的参数Θ同时将块克隆到可训练的副本中该副本具有参数Θ_c如图2b。可训练的副本接受外部条件向量c作为输入。当将这种结构应用于像Stable Diffusion这样的大型模型时锁定参数可以保留使用数十亿张图像训练的生产就绪模型而可训练的副本可以重用这种大规模预训练模型以建立一个深、稳健且强大的主干网络来处理各种输入条件。可训练的副本通过零卷积层Z··连接到锁定模型。具体而言Z··是一个初始化为零的权重和偏差的1×1卷积层。为了构建ControlNet使用两个零卷积的实例参数分别为Θz1和Θz2。完整的ControlNet计算如下所示: yc是ControlNet块输出。在第一个训练步骤中由于零卷积层的权重和偏差参数都初始化为零方程2中的两个Z··项都计算为零。这样在训练开始时有害噪声不会影响可训练副本中神经网络层的隐藏状态。此外由于ZcΘz10并且可训练副本也接收输入图像x因此可训练副本完全有效并保留大型预训练模型的功能使其能够作为强大的主干网络用于进一步学习。零卷积通过消除初始训练步骤中的随机噪声来保护这个主干网络。 2.2 用于Stable Diffusion的ControlNet Stable Diffusion本质上是一个U-Net包含编码器、中间块和跳跃连接解码器。编码器和解码器都包含12个块而整个模型包含25个块包括中间块。在这25个块中8个块是下采样或上采样卷积层而其他17个块是主块每个主块包含4个ResNet层和2个Vision TransformerViT。每个ViT包含几个交叉注意力和自注意力机制。如图3a中“SD Encoder Block A”包含4个ResNet层和2个ViT“×3”表示该块重复三次。文本提示使用CLIP文本编码器进行编码扩散时间步使用带有位置编码的时间编码器进行编码。图3 Stable Diffusion的U-net架构连接在编码器块和中间块上有一个ControlNet。锁定的灰色块显示了Stable Diffusion V1.5的结构。可训练的蓝色块和白色的零卷积层被添加来构建一个ControlNet。将ControlNet结构应用于U-net的每个编码器级别图3b。使用ControlNet创建Stable Diffusion的12个编码块和1个中间块的训练副本。12个编码块分布在4个分辨率64 × 64,32 × 32,16 × 16,8 × 8中每个分辨率复制3次。输出被添加到U-net的12个跳连接和1个中间块中。由于Stable Diffusion是典型的U-net结构这种ControlNet架构可能适用于其他模型。连接ControlNet的方式在计算上是高效的-由于锁定副本的参数被冻结在微调过程中原始锁定编码器不需要进行梯度计算。这种方法加快了训练速度并节省GPU内存。图像扩散模型学习逐步去噪图像并从训练域生成样本。去噪过程可以在像素空间或从训练数据编码的潜在空间中进行。Stable Diffusion使用潜在图像作为训练域。Stable Diffusion将512 × 512像素空间的图像转换为较小的64 × 64潜在图像。要将ControlNet添加到Stable Diffusion中首先将每个输入条件图像例如边缘、姿势、深度等从512 × 512的输入大小转换为与Stable Diffusion大小相匹配的64 × 64特征空间向量。使用一个具有四个卷积层的tiny网络E(·)这些卷积层具有4 × 4内核和2 × 2步长通过ReLU激活使用16、32、64、128个通道分别初始化高斯权重并与其他完整模型联合训练将图像空间条件-ci编码为特征空间条件向量cf。cf条件向量被传递到ControlNet中。 2.3 训练给定一个输入图像z0图像扩散算法会逐步向图像添加噪声并生成一个噪声图像zt其中t表示添加噪声的次数。给定一组条件包括时间步t、文本提示ct以及特定于任务的条件cf图像扩散算法会学习一个网络εθ来预测添加到噪声图像zt上的噪声。在训练过程中随机用空字符串替换50%的文本提示ct。这种方法提高了ControlNet直接从输入条件图像中识别语义例如边缘、姿态、深度等的能力作为提示的替代。在训练过程中由于零卷积不会给网络添加噪声模型应该始终能够预测高质量的图像。模型并没有逐渐学习控制条件而是在优化步骤少于10K时突然成功地遵循输入条件图像。如图4所示这种现象被称为“突然收敛现象”。图4 突然收敛现象由于零卷积ControlNet总是可以预测整个训练过程高质量图像。在某一阶段训练过程(例如用粗体标出的6133个步骤)模型突然学会了跟随输入条件。 2.4 推理可以进一步控制ControlNet的额外条件以多种方式影响去噪扩散过程。图5 无分类器制导(CFG)的效果提出CFG分辨率加权法(CFG- rw)。 Classifier-free guidance resolution weighting无分类器指导分辨率权重。稳定的扩散取决于一种称为无分类器指导CFG的技术用于生成高质量图像。CFG表述为 εprd εuc βcfg (εc − εuc )其中 εprd 、εuc 、εc、βcfg 分别是模型的最终输出、无条件输出、条件输出和一个用户指定的权重。当通过ControlNet添加条件图像时可以将其添加到 εuc 和 εc 中或者仅添加到 εc 中。在具有挑战性的情况下例如没有给出提示时将其同时添加到 εuc 和 εc 中将完全去除CFG指导图5b只使用 εc 将使指导变得非常强烈图5c。一种解决方案是将条件图像首先添加到 εc 中然后根据每个块的分辨率将每个连接在Stable Diffusion和ControlNet之间的权重wi乘以每个连接的权重wi 64 / hi其中hi是第i个块的大小例如h1 8, h2 16, ..., h13 64。通过降低CFG指导强度我们可以获得图5d所示的结果其称为CFG分辨率权重。图6 组合多个ControlNet条件进行生成组合多个ControlNet。为了将多个条件图像例如Canny边缘和姿态应用于Stable Diffusion的单个实例可以将相应ControlNet的输出直接添加到Stable Diffusion模型中图6。这种组合不需要额外的加权或线性插值。 3.实验结果使用Stable Diffusion实现ControlNet以测试各种条件包括Canny Edge、Depth Map、Normal Map、M-LSD lines、HED soft edge、ADE20K segmentation、Openpose 和用户草图。 3.1 定性结果显示了几个提示设置中生成的图像。图7显示了在没有提示的情况下在不同的条件下的各种控制网络对输入条件图像中的内容语义进行鲁棒解释。 3.2 消融实验通过以下方式研究ControlNets的替代结构 (1)将零卷积替换为用高斯权重初始化的标准卷积层 (2)将每个块的训练副本替换为一个单一的卷积层称为ControlNet-lite。提出了4种提示设置来测试现实世界用户可能的行为 (1)无提示 (2)提示不足即不完整覆盖条件图像中的对象 3冲突提示即改变条件图像的语义 4完美提示即描述必要的内容语义例如“漂亮的房子”。图8a显示ControlNet在所有4种设置中都取得了成功。轻量级的ControlNet-lite图8c不足以解释条件图像在提示不足和无提示的情况下失败。当零卷积被替换时ControlNet的性能下降到与ControlNet-lite相同这表明在微调过程中可训练副本的预训练主干被破坏了图8b。图8 在草图条件和不同提示设置下对不同架构进行消融研究。每个设置显示一个随机批次无筛选的6个样本。图像大小为512 × 512。左边的绿色“conv”块是用高斯权重初始化的标准卷积层。 3.3 和之前结果比较图9 Comparison to previous methods 图9展示了基线和(Stable DiffusionControlNet)之间可视化比较。具体展示了PTIT、Sketch-Guided Diffusion和Taming Transformers的结果。可以看出ControlNet可以稳健地处理各种条件图像并产生清晰干净的结果。 3.4 数据集大小的影响图10 不同训练数据集大小的影响。图10中展示了ControlNet训练的鲁棒性。当使用1k张图像进行训练时模型不会崩溃并且能够生成可识别的狮子。当提供更多数据时学习是可以扩展的。图11 内容解读图11展示了ControlNet对输入条件图像进行语义捕捉的能力。如果输入有歧义而且用户不会在提示中提及对象内容结果看起来像是模型试图解释输入的形状。、图12 将预先训练的控制网转移到社区无需再次训练神经网络的模型图12显示了将Control- Net应用于社区模型的能力。由于ControlNets不会改变预训练SD模型的神经网络拓扑结构因此它可以直接应用于稳定扩散社区中的各种模型例如Comic Diffusion和Protogen 3.4 4.结论 ControlNet是一种神经网络结构它学习大型预训练的文本到图像扩散模型的带条件控制。它重用源模型的的大规模预训练层来构建一个深度且强大的编码器以学习特定条件。原始模型和可训练的副本通过“零卷积”层连接这些“零卷积”层可以消除训练期间的噪音。大量实验证明ControlNet可以有效控制带有单个或多个条件以及带/不带提示的Stable Diffusion。在多样化条件数据集上的结果展示出ControlNet结构可能适用于更广泛的条件并促进相关应用。 OK以上就是《Adding Conditional Control to Text-to-Image Diffusion Models》也就是ControlNet原始论文的解读ControlNet结合Stable Diffusion可以有效提升SD生图的可控性和可玩性后续也会和大家分析关于ControlNet的应用部分欢迎大家一起交流

查看全文

http://www.zqtcl.cn/news/895238/