网站优化找谁,桂林北站是哪个区,网站建设项目策划,电商入门基础知识本文主要介绍Stable Diffusion WebUI的实际操作方法#xff0c;涵盖prompt推导、lora模型、vae模型和controlNet应用等内容#xff0c;并给出了可操作的文生图、图生图实战示例。适合对Stable Diffusion感兴趣#xff0c;但又对Stable Diffusion WebUI使用感到困惑的同学涵盖prompt推导、lora模型、vae模型和controlNet应用等内容并给出了可操作的文生图、图生图实战示例。适合对Stable Diffusion感兴趣但又对Stable Diffusion WebUI使用感到困惑的同学希望通过本文能够降低大家对Stable Diffusion WebUI的学习成本更快速的体验到AIGC图像生成的魅力。 引言 Stable Diffusion 简称sd是一个深度学习的文本到图像生成模型 Stable Diffusion WebUI是对Stable Diffusion模型进行封装提供可操作界面的工具软件。Stable Diffusion WebUI上加载的模型是在Stable Diffusion 基座模型基础上为了获得在某种风格上的更高质量的生成效果而进行再次训练后产生的模型。目前 Stable Diffusion 1.5版本是社区内最盛行的基座模型。 ▐ 安装 sd web-ui的安装请参考https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs sd web-ui使用了gradio组件包gradio在配置shareTrue时会创建frpc隧道并链接到aws详情可参考https://www.gradio.app/guides/sharing-your-app因此在sd web-ui应用启动时请根据自身安全生产或隐私保护要求考虑是否禁止开启shareTrue配置或删除frpc客户端。 ▐ 模型 https://civitai.com/是一个开源的sd模型社区提供了丰富的模型免费下载和使用。在此简述一下模型的分类有助于提高对sd web-ui的使用。sd模型训练方法主要分为四类Dreambooth LoRATextual InversionHypernetwork。 Dreambooth在sd基座模型的基础上通过 Dreambooth 训练方式得到的大模型 是一个完整的新模型训练速度较慢生成模型文件较大一般几个G模型文件格式为 safetensors 或 ckpt。特点是出图效果好在某些艺术风格上有明显的提升。如下图所示sd web-ui中该类模型可以在这里进行选择。LoRA: 一种轻量化的模型微调训练方法在原有大模型的基础上对该模型进行微调用于输出固定特征的人或事物。特点是对于特定风格的图产出效果好训练速度快模型文件小一般几十到一百多 MB不能独立使用需要搭配原有大模型一起使用。sd web-ui提供了lora模型插件以及使用lora模型的方式具体操作可见本文的 操作流程-lora模型 。Textual Inversion一种使用文本提示和对应的风格图片来微调训练模型的方法文本提示一般为特殊的单词模型训练完成后可以在text prompts中使用这些单词来实现对模型生成图片风格和细节的控制需要搭配原有的大模型一起使用。Hypernetwork与LoRA类似的微调训练大模型的方法需要搭配原有的大模型一起使用。 操作流程 ▐ prompt推导 在sd中上传一张图片反向推导关键词有两个模型CLIP和DeepBooru以图1为例 图1: iphone 14 pro max 原相机拍摄的高清照片 使用CLIP进行prompt反推的结果 a baby is laying on a blanket surrounded by balloons and balls in the air and a cake with a name on it, Bian Jingzhao, phuoc quan, a colorized photo, dada 使用DeepBooru进行prompt反推的结果 1boy, ball, balloon, bubble_blowing, chewing_gum, hat, holding_balloon, male_focus, military, military_uniform, open_mouth, orb, solo, uniform, yin_yang CLIP反推结果是一个句子DeepBooru的反推结果是关键词。 可以修改正向prompt也可以添加反向prompt反向prompt用于限制模型在生产图片时不添加反向prompt中出现的元素。反向prompt不是必须的可以不填。 ▐ lora模型 lora模型对大模型生成图的风格和质量有很强的干预或增强作用但是lora模型需要与配套的大模型一起使用不能单独使用。在sd-webui中使用lora模型的方式主要有两种 方法一 安装additional-network插件插件的github地址https://github.com/kohya-ss/sd-webui-additional-networks在sd-webui上可以在扩展中直接下载安装。该插件仅支持使用sd-script脚本训练的lora模型目前https://civitai.com/上绝大多数的开源lora模型都是基于此脚本训练的因此该插件支持绝大多数的lora模型。下载的lora模型需要放到 */stable-diffusion-webui/extensions/sd-webui-additional-networks/models/lora 路径下, 新增模型需要重启sd-webui插件和模型正确加载后会在webui操作界面的左下角中出现“可选附加网络LoRA插件” 。在生成图片时触发lora需要在插件中选中lora模型并在正向提示词中加入Trigger Words。下图中选中的lora模型为blinndbox_v1_mix, trigger words为full body,chibi, 每个lora模型有自己独有的Trigger Words在模型的简介中会注明。 如果插件在点击安装后没有反应或者提示因为Flag引起的错误是因为webui启动时允许扩展插件的设置配置为禁止需要在webui启动时添加启动参数--enable-insecure-extension-access ./webui.sh --xformers --enable-insecure-extension-access 方法二 不使用additional-network插件使用sd-webui默认支持的lora模型使用方式需要将lora模型放到 */stable-diffusion-webui/models/Lora 目录下重新启动sd-webui即可自动载入模型。 在正向提示词中加入lora模型启用语句生产图片时即可触发lora模型 web-ui提供了自动填充lora提示语句的功能点击如图所示的图标可以打开lora模型列表然后点击模型区域语句会自动填充到正向提示词区域 以上两种方式选用其中任意一种均能使lora模型在内容生产中生效两种方式同时使用也不会引起问题。 ▐ ControlNet controlNet通过支持额外的输入条件试图控制预训练的大模型如Stable Diffusion。单纯的文本控制方式令内容的生产就像碰运气抽卡结果无法控制且不容易达到预期效果controlNet的出现使stable diffusion大模型的内容生成进入可控时期让创作变得可控使得AIGC在工业应用上更进一步。 安装controlNet 在sd-webui上点击扩展进入插件安装页面找到controlNet插件点击install即可完成插件安装。 下载开源的controlnet模型 下载地址https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main 一个模型由两个文件组成: .pth 和 .yaml需要同时下载。文件名中V11后面的字母p:表示可以使用e:表示还在试验中u:表示未完成。下载好的模型放在如下目录重启sd-webui 即可完成controlnet模型加载。 *\stable-diffusion-webui\extensions\sd-webui-controlnet\models ▐ 图生图示例 模型选择 1、stable diffusion大模型选用revAnimated_v11 (https://civitai.com/models/7371?modelVersionId46846) 2、lora模型选用blind_box_v1_mix (https://civitai.com/models/25995?modelVersionId32988) 3、采样方法Euler a 4、源图片使用 图1使用DeepBooru模型进行正向prompts生成, 添加revAnimated_v11的特定prompts, 删除一些正向prompts添加反向prompts最后使用的prompt如下所示。 正向 (masterpiece),(best quality), (full body:1.2), (beautiful detailed eyes), 1boy, hat, male, open_mouth, smile, cloud, solo, full body, chibi, military_uniform, lora:blindbox_v1_mix:1 反向 (low quality:1.3), (worst quality:1.3) 生成的图片为 图1:原图片 图2:sd生成图片 5、保持生成图片的条件不变添加ControlNet模型选择Openposecontrol mode选择 balance 生成的图片如下所示生成的人物动作因为Openpose的作用被约束了与原图像保持的更为相似。 图3:sd生成图片添加openpose 图4: openpose生成的图片 ▐ 文生图示例 模型选择 stable diffusion大模型选用revAnimated_v11 (https://civitai.com/models/7371?modelVersionId46846)lora模型选用blind_box_v1_mix (https://civitai.com/models/25995?modelVersionId32988)采样方法Euler a 示例1 提示词 正向 (masterpiece),(best quality),(ultra-detailed), (full body:1.2), 1girl, youth, dynamic, smile, palace,tang dynasty, shirt, long hair, blurry, black hair, blush stickers, black hair, (beautiful detailed face), (beautiful detailed eyes), lora:blindbox_v1_mix:1, full body, chibi 反向 (low quality:1.3), (worst quality:1.3) 生成的图片为 图5: 文生图实例1 示例2 提示词 正向 (masterpiece),(best quality),(ultra-detailed), (full body:1.2), 1girl,chibi,sex, smile, open mouth, flower, outdoors, beret, jk, blush, tree, :3, shirt, short hair, cherry blossoms, blurry, brown hair, blush stickers, long sleeves, bangs, black hair, pink flower, (beautiful detailed face), (beautiful detailed eyes), lora:blindbox_v1_mix:1, 反向 (low quality:1.3), (worst quality:1.3) 生成图片为 图6: 文生图实例2 提示词解析 (masterpiece),(best quality),(ultra-detailed), (full body:1.2), (beautiful detailed face), (beautiful detailed eyes) 这些带()的词为revAnimated_v11 模型配套prompts用于提高图片的生成质量。lora:blindbox_v1_mix:1 是触发 blind_box_v1_mix 模型的 prompt。full body, chibi 为 blind_box_v1_mix 模型的 trigger words。剩下的prompts为图片内容的描述。revAnimated_v11 模型对prompt的顺序是敏感的排在前面的提示词比排在后面的prompt对结果的影响更大。 ▐ VAE 在sd的实际使用中vae模型起到滤镜和微调的作用有些sd模型是自带vae的并不需要单独挂载vae。与模型配套的vae的模型通常会在模型的发布页面会附带vae的下载链接。 模型的安装 下载vae模型到sd web-ui的如下目录重启sd web-ui即可自动完成vae模型加载。 /stable-diffusion-webui/models/VAE 如下图所示在sd web-ui上可以切换vae模型。 如果we-ui上看不到此选择框则到设置- 用户界面- 快捷设置列表 添加配置 sd_vae如下所示 效果 在保持图6生成条件不变的基础上附加Blessed2https://huggingface.co/NoCrypt/blessed_vae/blob/main/blessed2.vae.pt模型图片的颜色和对比度有了明显的变化。 图7: 添加vae模型前 图8添加vae模型后图片的饱和度和对比度都有提升 结束语 sd web-ui的学习曲线比较陡峭具有一定的图像处理领域知识能够帮助用户更好的选择和组合模型。零基础小白用户容易出现随便选择模型胡乱组合对着sd web-ui界面进行一系列操作后出图效果和预期完全不符的情况建议先了解每个模型的特点后再根据实际目标进行选择。sd是开源的sd web-ui是一个工具箱不是一个商业产品社区中有很多效果很棒的模型出图的上限很高但下限也很低开源不代表没有成本因为sd we-ui部署要求较高的硬件配置。要节省学习成本较为稳定的出图效果简单便捷的用户体验没有硬件配置要求midjourney 是当前的首选但需要支付订阅费。 团队介绍 我们是大淘宝FC技术智能策略团队负责手机天猫搜索、推荐、拍立享等业务研发和技术平台建设综合运用搜推算法、机器视觉、AIGC等前沿技术致力于依靠技术的进步支持场景的提效和产品的创新为用户带来更好的购物体验。 ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法