当前位置：首页 > news >正文

html5网站建站书网站建设会议验收

news 2025/11/14 18:36:40

html5网站建站书,网站建设会议验收,秀米官网登录入口,深圳网站设计成功柚米1 Stable Diffusion概述 1.1 图像生成的发展在Stable Diffusion诞生之前#xff0c;计算机视觉和机器学习方面最重要的突破是 GAN#xff08;Generative Adversarial Networks 生成对抗网络#xff09;。GAN让超越训练数据已有内容成为可能#xff0c;从而打开了一个全新…1 Stable Diffusion概述 1.1 图像生成的发展在Stable Diffusion诞生之前计算机视觉和机器学习方面最重要的突破是 GANGenerative Adversarial Networks 生成对抗网络。GAN让超越训练数据已有内容成为可能从而打开了一个全新领域——现在称之为生成建模。然而在经历了一段蓬勃发展后GAN开始暴露出一些瓶颈和弊病大家倾注了很多心血努力解决对抗性方法所面临的一些瓶颈但是鲜有突破GAN由此进入平台期。GAN的主要问题在于图像生成缺乏多样性模式崩溃多模态分布学习困难训练时间长由于问题表述的对抗性不容易训练另外还有一条基于似然例如马尔可夫随机场的技术路线尽管已经存在很久但由于对每个问题的实施和制定都很复杂因此未能产生重大影响。近几年随着算力的增长一些过去算力无法满足的复杂算法得以实现其中有一种方法叫“扩散模型”——一种从气体扩散的物理过程中汲取灵感并试图在多个科学领域模拟相同现象的方法。该模型在图像生成领域展现了巨大的潜力成为今天Stable Diffusion的基础。 1.2 Stable Diffusion介绍 Stable Diffusion是stability.ai开源的图像生成模型可以说Stable Diffusion的发布将AI图像生成提高到了全新高度。Stable Diffusion 作为一款高性能模型它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小是 AI 图像生成领域的里程碑。 1.3 Stable Diffusion组成 Stable Diffusion不是一个整体模型它由几个组件和模型组成。文本理解组件text-understanding component 将文本信息转换成数字表示以捕捉文本中的想法。图像生成器image generator图像生成器包括两步图像信息创建者 Image information creator和图像解码器Image Decoder。图像信息创建者这一组件运行多步以生成对象这是stable diffusion接口和库中的步长参数通常默认为50或者100。图像信息创建者完全在图像信息空间隐藏空间中工作此特性比在像素空间中工作的扩散模型更快。图像解码器根据从图像信息创建者哪里获得信息绘制图片它仅仅在生成最终图像的结束阶段运行一次。上图是stable diffusion的一个流程图包含了上述描述的三个组件每个组件都有相应的神经网络。文本理解组件Clip Text为文本编码器。以77 token为输入输出为77 token 嵌入向量每个向量有768维度图像信息创建者UNetScheduler在潜在空间中逐步处理扩散信息。以文本嵌入向量和由噪声组成的起始多维数组为输入输出处理的信息数组。图像解码器**自动编码解码器使用处理后的信息数组绘制最终的图像。以处理后的维度为 4×64×64的信息数组为输入输出尺寸为3×512×512的图像。 2 Stable Diffusion工作原理 2.1 到底何为扩散Diffusion 扩散是发生在粉色区域图像信息创建器组件中的过程。这一部分有一个表示输入文本的 token embeddings 和一个随机初始化的图像信息数组这些数组也被称为 latents在这个过程中会产生一个信息数组图像解码器Image Decoder使用这个信息数组生成最终图像。扩散是循序渐进逐步发生的每一步都会增加更多的相关信息。为了更加直观地了解这个过程我们可以检查随机 latents 数组看它是否转化为了视觉噪音visual noise。在这种情况下视觉检查Visual inspection是通过图像解码器进行的。扩散分为多个 step每个 step 都在输入的 latents 数组上运行并且会产生另一个 latents 数组这个数组更类似于输入文本以及模型在模型训练时的所有图像中获取的所有视觉信息。我们可以对一组这样的 latents 数组执行可视化看看每一步都添加了什么信息。这一过程令人叹为观止。在这种情况下步骤 2 和 4 之间发生了一些特别有意思的事情就好像轮廓是从噪音中浮现出来的。扩散模型图像生成的核心是强大的计算机视觉模型。在足够大的数据集的基础上这些模型可以学会很多复杂运算。扩散模型通过如下方式建构问题来实现图像生成假设我们有一个图像我们首先生成一些噪音noise然后将这些噪音添加到图像上。我们可以将这看成是一个训练示例。之后我们使用同样的公式去创建更多的训练示例然后用这些示例去训练图像生成模型的中心组件。虽然这个例子展示了从图像总量 0没有噪音到总噪音总量 4总噪音的一些噪音值但是我们可以轻松控制向图像中添加的噪音因此我们可以将其分为数十个 step为数据集中的每个图像创建数十个训练示例。有了这个数据集我们可以训练噪音预测器noise predictor并最终得到一个在特定配置下运行时可以创建图像的预测器。接触过 ML 的人会觉得训练步骤非常熟悉接下来我们来看看 Stable Diffusion 是如何生成图像的。 2.2 通过降噪绘图经过训练的噪音预测器可以对噪音图像进行降噪处理并且可以预测噪音。因为样本噪音sampled noise被预测所以如果我们从图像中去掉这个样本我们得到的图像就会更接近模型训练的图像。这个图像不是确切的图像本身而是图像分布也就是图像的像素排列在像素排列中天空通常是蓝色的高于地面人有两只眼睛猫有尖耳朵并且总是懒洋洋的。如果训练数据集中的图像比较美观比如说 Stable Diffusion 训练的 LAION Aesthetics那么训练出来的图像的可观赏性也会更高。如果我们在 logo 图像上对其进行训练那么我们最终会得到一个 logo 生成模型。这里总结了扩散模型处理图像生成的过程主要如论文 Denoising Diffusion Probabilistic Models 所述。相信你对扩散的含义有了一定的了解知道了 Stable Diffusion、Dall-E 2 和谷歌 Imagen 的主要组件。值得注意的是到目前为止我们所描述的扩散过程没有使用任何文本数据只需运行模型就能生成精美图像。不过我们无法控制图像的内容它可能是一座金字塔也可能是一只猫。接下来我们将讨论如何将文本信息融入扩散过程以控制图片类型。 2.3 速度提升在压缩Latent数据中扩散为了加快图像生成过程Stable Diffusion 论文没有在像素图像上进行运行而是在图像的压缩版本上运行。论文将这称为前往潜在空间(Departure to Latent Space)。压缩随后是解压缩/绘图通过编码器完成。自动编码器使用 Image Encoder 将图像压缩进潜空间然后使用 Image Decoder 再对压缩信息进行重构。正向扩散在潜空间上完成。噪声信息应用于潜空间而不是应用于像素图象。因此训练噪声预测器noise predictor实际上是为了预测压缩表示compressed representation上的噪音这个压缩表示也被称为潜空间latent space。正向扩散是使用 Image Encoder 生成图像数据来训练噪声预测器。训练一旦完成就可以执行反向扩散使用 Image Decoder 生成图像。 LDM/Stable Diffusion 论文的图 3 中提及了这两个过程上图还显示了“conditioning”组件这个组件在本例中是描述模型生成图像的文本提示词text prompts。接下来我们继续探讨文本组件。 2.4 文本编码器一种 Transformer 语言模型 Transformer 语言模型作为语言理解组件能够接受文本提示词生成 token embeddings。Stable Diffusion 模型使用的是 ClipText基于 GPT 的模型而论文中采用的是 BERT。 Imagen 论文表明语言模型的选择相当重要。相较于较大的图像生成组件较大的语言模型组件对生成图像的质量影响更大。较大的/更好的语言模型对图像生成模型的质量有巨大的影响。资料来源Saharia 等人所著论文 Google Imagen 中的图 A.5。早期的 Stable Diffusion 模型仅使用了 OpenAI 发布的预训练模型 ClipText。未来模型可能转向新发布的更大的 CLIP 变体 OpenCLIP。更新于 2022 年 11 月详情见 Stable Diffusion V2 uses OpenClip。与仅含有 630 万文本模型参数的 ClipText 相比OpenCLIP 文本模型参数多达 3.54 亿。 2.5 如何训练 CLIP CLIP 模型是在图像和图像说明数据集上训练的。我们可以设想这样一个数据集它里面有 4 亿张图像以及这些图像说明的材料。实际上CLIP 是在网络上抓取的带有“alt”标签的图像上训练的。CLIP 是图像编码器和文本编码器的结合。简单来说训练 CLIP 就是分别对图像和图像文本说明进行编码。然后使用余弦相似度来比较生成的 embeddings。刚开始训练时即使文本正确描述了图像相似度也会很低。我们更新了这两个模型这样下次嵌入它们时就可以得到相似的 embeddings。通过在数据集上重复此操作并使用大的 batch size最终使编码器能够生成图像和文本说明相似的 embeddings。如 word2vec训练过程也需要包含不匹配的图像和文本说明作为负样本以得到较低的相似度分数。 2.6 将文本信息融入图像生成过程为了使文本融入图像生成我们须调整噪声预测器来输入文本。现在在数据集中加入文本。因为我们是在潜空间中运行所以输入的图像和预测的噪声都处于潜空间中。为了更好地理解 UNet 中文本 tokens 的使用方式下面我们将进一步探究 UNet 模型。 2.7 Unet 噪声预测器的 Layers(未使用文本) 首先来看没有使用文本的 UNet其输入和输出如下可以看到 UNet 是一系列用于转换 latents 数组的 layers 每一 layer 都对前一个 layer 的输出进行操作 Some of the outputs are fed (via residual connections) into the processing later in the network 通过残差连接residual connections将网络前面的 layer 输出送入到后面的 layer 进行处理时间步长被转化为 embedding 向量在网络层中使用 2.8 Unet 噪声预测器中的 Layers (带文本) 现在让我们看看如何改变该系统以增加对文本的关注度。为了给文本输入提供支持也就是专业上所说的文本条件text conditioning我们需要在系统的 ResNet blocks 之间添加一个注意力层attention layer。文本信息不直接由 ResNet 处理而是通过注意力层将这些文本表示融入到 latents 中。这样下一个 ResNet 就能在处理过程中利用融入的文本信息。

查看全文

http://www.zqtcl.cn/news/807894/