当前位置: 首页 > news >正文

上传设计作品的网站app开发公司怎么选择

上传设计作品的网站,app开发公司怎么选择,怎么做淘宝客网站,网站后台做的超链接打不开摘要 本研究介绍了AnyDoor#xff0c;这是一款基于扩散模型的图像生成器#xff0c;能够在用户指定的位置#xff0c;以期望的形状将目标对象传送到新场景中。与为每个对象调整参数不同#xff0c;我们的模型仅需训练一次#xff0c;就能在推理阶段轻松地泛化到多样化的对… 摘要 本研究介绍了AnyDoor这是一款基于扩散模型的图像生成器能够在用户指定的位置以期望的形状将目标对象传送到新场景中。与为每个对象调整参数不同我们的模型仅需训练一次就能在推理阶段轻松地泛化到多样化的对象-场景组合。这种具有挑战性的零样本设置需要对特定对象进行充分的表征。为此我们补充了常用的身份特征与细节特征这些细节特征经过精心设计既能保持外观细节又允许多样化的局部变化例如照明、方向、姿势等支持对象与不同环境的融合。我们进一步提出从视频数据集中借用知识在那里我们可以观察到单一对象的多种形式即沿时间轴从而增强模型的泛化能力和鲁棒性。广泛的实验表明我们的方法在虚拟试穿、形状编辑和对象交换等现实世界应用方面相较于现有替代方案具有优越性并展现出巨大的潜力。代码已在github.com/ali-vilab/AnyDoor上发布。 1. 引言 随着扩散模型的飞速发展[22, 37, 40, 41, 43, 62]图像生成正迅速发展。人类可以通过提供文本提示、涂鸦、骨架图或其他条件来生成喜欢的图像。这些模型的强大功能也为图像编辑带来了潜力。例如一些工作[5, 24, 63]通过指令学习编辑图像的姿势、风格或内容。其他工作[53, 59]探索了在文本提示的指导下重新生成局部图像区域。在本文中我们研究了“对象传送”这意味着将目标对象准确且无缝地放置到场景图像的所需位置。具体来说我们通过将目标对象作为模板重新生成场景图像中标记有盒子/掩模的局部区域。这种能力在实际应用中是一个重要的需求如图像合成、效果图像渲染、海报制作、虚拟试穿等。尽管迫切需要但以前的研究者并没有很好地探索这个话题。Paint-by-Example[56]和ObjectStitch[47]以目标图像作为模板来编辑场景图像的特定区域但它们无法生成一致的ID身份内容特别是对于未经训练的类别。定制合成方法[18, 27, 33, 34, 42]能够为新概念进行生成但不能指定给定场景的特定位置。此外大多数定制方法需要在多个目标图像上进行微调耗时近一个小时这在很大程度上限制了它们在实际应用中的实用性。我们通过提出AnyDoor来解决这一挑战。与以前的方法不同AnyDoor能够在零样本情况下生成高质量的ID一致的合成。为了实现这一点我们用身份和细节相关特征来表示目标对象然后将它们与背景场景的交互合成。具体来说我们使用一个ID提取器来产生区分性的ID标记并精心设计一个频率感知的细节提取器来获取作为补充的细节图。我们将ID标记和细节图注入到预训练的文本到图像扩散模型中作为生成所需组合的指导。为了使生成的内容更具可定制性我们探索利用额外的控制例如用户绘制的掩模来指示对象的形状/姿势。为了学习具有高多样性的定制对象生成我们从视频中收集了同一对象的图像对以学习外观变化并利用大规模统计图像来保证场景的多样性。凭借这些技术AnyDoor展示了零样本定制的非凡能力。如图1所示AnyDoor在形状控制下的新概念合成方面表现出了有希望的性能第一行。此外由于AnyDoor对编辑场景图像的特定局部区域具有高可控性它很容易扩展到多主题组合中行这是许多定制生成方法探索的热门和具有挑战性的话题[3, 19, 27, 34]。而且AnyDoor的高生成保真度和质量为更多奇妙的应用如对象移动和交换底部行打开了可能性。我们希望AnyDoor能够作为各种图像生成和编辑任务的基础解决方案并作为激发更多奇特应用的基本能力。 2. 相关工作 本地图像编辑 大部分先前的工作集中在使用文本指导编辑图像的局部区域。Blended Diffusion[2]在掩模区域进行多步混合以生成更和谐的输出。Inpaint Anything[59]涉及SAM[26]和Stable Diffusion[41]用文本描述的目标替换源图像中的任何对象。Paint-by-Example[56]使用CLIP[39]图像编码器将目标图像转换为引导的嵌入因此在场景图像上绘制了语义一致的对象。ObjectStitch[47]提出了一个与[56]类似的解决方案它训练一个内容适配器将CLIP图像编码器的输出与文本编码器对齐以指导扩散过程。然而这些方法只能为生成提供粗略指导通常无法为未经训练的新概念合成ID一致的结果。 定制图像生成 定制或称为主题驱动的生成旨在为特定对象生成图像给定几个目标图像和相关文本提示。一些工作[9, 18, 42]微调一个“词汇表”来描述目标概念。Cones[33]找到所指对象的相应神经元。尽管它们可以生成高保真图像但用户无法指定场景和目标对象的位置。此外耗时的微调阻碍了它们在大规模应用中的使用。最近BLIPDiffusion[28]利用BLIP-2[29]对齐图像和文本进行零样本定制。Fastcomposer[52]将图像表示与特定文本嵌入绑定以进行多人生成。一些并行工作[30, 58, 61]也探索了使用一个参考图像来定制生成结果但未能保持细节。 图像和谐化 经典的图像组合流程是切割前景对象并将其粘贴到给定的背景上。图像和谐化[7, 14, 20, 48]可以进一步调整粘贴区域使其具有更合理的照明和颜色。DCCF[55]设计金字塔滤波器更好地和谐前景。CDTNet[15]利用双变换器。HDNet[8]提出了一个分层结构来考虑全局和局部一致性并达到了最先进的水平。尽管如此这些方法只探索了低级变化编辑前景对象的结构、视图和姿势或者生成阴影和反射并未被考虑。 3. 方法 AnyDoor的流程如图2所示。给定目标对象、场景和位置AnyDoor以高保真度和多样性生成对象-场景组合。核心思想是通过身份和细节相关特征来表示对象并通过将这些特征注入预训练的扩散模型来重新组合它们。为了学习外观变化我们利用包括视频和图像在内的大规模数据进行训练。 3.1. 身份特征提取 我们利用预训练的视觉编码器提取目标对象的身份信息。先前的工作[47, 56]选择CLIP[39]图像编码器来嵌入目标对象。然而由于CLIP是使用粗略描述的文本-图像对进行训练的它只能嵌入语义级信息难以提供保留对象身份的区分性表示。为了克服这一挑战我们进行了以下更新 背景移除在将目标图像输入ID提取器之前我们使用分割器将背景移除并将对象对齐到图像中心。分割器模型可以是自动的[26, 38]或交互式的[11, 12, 32]。这一操作已被证明在提取更整洁和区分性特征方面是有帮助的。自我监督表示在这项工作中我们发现自我监督模型在保留更多区分性特征方面表现出强大的能力。在大规模数据集上预训练的自我监督模型自然具备实例检索能力并且可以将对象投影到一个增强不变特征空间。我们选择当前最强大的自我监督模型DINOv2[36]作为我们ID提取器的骨干它将图像编码为全局标记T1×1536g和补丁标记T256×1536p。我们连接这两种类型的标记以保留更多信息。我们发现使用单个线性层作为投影器可以将这些标记与预训练的文本到图像UNet的嵌入空间对齐。投影标记T257×1024 ID被记作我们的ID标记。 3.2. 细节特征提取 考虑到ID标记以低分辨率16×16表示它们很难充分保持低级细节。因此我们需要额外的指导来补充细节生成。拼贴表示受到[6, 44]的启发使用拼贴作为控制可以提供强大的先验我们尝试将“背景移除的对象”缝合到场景图像的给定位置。有了这个拼贴我们观察到生成保真度的显著提高但生成的结果与给定目标过于相似缺乏多样性。面对这个问题我们探索设置一个信息瓶颈以防止拼贴给出太多外观约束。具体来说我们设计了一个高频地图来表示对象它可以保持细节同时允许多样化的局部变体如手势、照明、方向等。高频地图我们使用以下公式提取目标对象的高频地图 ℎ(⊗ℎ⊗)⊙⊙Ih(Igray​⊗Kh​Igray​⊗Kv​)⊙I⊙Merode​ 其中 ℎ,Kh​,Kv​ 表示水平和垂直的Sobel[23]核作为高通滤波器。⊗“和”⊙分别指卷积和哈达玛德乘积。给定图像I我们首先使用这些高通滤波器提取高频区域然后使用哈达玛德乘积提取RGB颜色。我们还添加了一个侵蚀掩模Meroode以过滤掉目标对象外轮廓附近的信息。如图3所示DINOv2产生的标记更关注整体结构难以编码背包上的标志等细节。相比之下高频地图可以作为补充帮助处理这些细节。形状控制我们使用形状掩模来指示对象的姿态。为了模拟用户输入我们对真实掩模进行不同比例的下采样并应用随机膨胀/腐蚀来移除细节。为了保持处理单个框输入的能力我们设置了一个0.3的概率使用内部框区域作为掩模。在训练期间对象计数器将与形状掩模对齐。因此用户可以通过在推理期间绘制粗略的形状掩模来控制目标对象的形状。在获得拼贴和轮廓图后我们将它们连接起来并输入到细节提取器中。细节提取器是一个ControlNet风格的[62]UNet编码器它产生一系列具有层次分辨率的细节图。 3.3. 特征注入 在获得ID标记和细节图后我们将它们注入到预训练的文本到图像扩散模型中以指导生成。我们选择Stable Diffusion[41]它将图像投影到潜在空间并使用UNet进行概率采样。我们注意到预训练的UNet为 ^x^θ​它从初始潜在噪声 ∼([0,1])ϵ∼U([0,1]) 开始去噪并采用文本嵌入c作为条件生成新图像潜在z ^(,)zt​αt​x^θ​(αt​xσt​ϵ,c)σt​ϵ 训练监督是一个均方误差损失 ,,,(∥^(,)−∥22)Ex,c,ϵ,t​(∥x^θ​(αt​xσt​ϵ,c)−x∥22​) ... 3.4. 训练策略 图像对收集理想的训练样本是“同一对象在不同场景中的图像对”现有的数据集并不直接提供。作为替代先前的工作[47, 56]利用单个图像并应用旋转、翻转和弹性变换等增强。然而这些简单的增强不能很好地代表姿势和视图的实际变化。为了解决这个问题在这项工作中我们利用视频数据集来捕捉包含同一对象的不同帧。数据准备流程如图4所示我们利用视频分割/跟踪数据作为示例。对于一个视频我们选择两帧并获取每个帧中实例的掩模。然后我们删除一个图像的背景并围绕掩模裁剪它作为目标对象。这个掩模可以用作扰动后掩模控制。对于另一个帧我们生成框并删除框区域以获取场景图像未掩模的图像可以作为训练真实情况。使用的完整数据列在表1中涵盖了自然场景、虚拟试穿、显著性、多视图对象等多种领域。 自适应时间步采样尽管视频数据对学习外观变化有益但由于分辨率低或运动模糊帧质量通常不满意。相比之下图像可以提供高质量的细节和多样化的场景但缺乏外观变化。为了利用视频数据和图像数据的优势我们开发了自适应时间步采样使不同模态的数据在去噪训练的不同阶段受益。原始扩散模型[41]对每个训练数据均匀采样时间步(T)。然而观察到最初的去噪步骤主要集中于生成整体结构、姿势和视图后续步骤涵盖细节如纹理和颜色。因此对于视频数据我们在训练期间增加了50%的可能性采样早期去噪步骤(500-1000)以更好地学习外观变化。对于图像我们增加了50%的可能性采样后期步骤(0-500)以学习如何覆盖细节。 4. 实验 4.1 实施细节 超参数。我们选择Stable Diffusion V2.1 [41] 作为基础生成器。在训练期间我们将图像分辨率处理为512×512。我们选择Adam [25] 优化器初始学习率为1e−5。我们训练了两个版本的模型原始版本仅使用框来指示位置而加强版本使用形状掩模。在本文中除非特别指明使用形状掩模否则结果由原始版本生成。放大策略。在推理期间给定场景图像和位置框我们将框扩展为放大比率为2.0的正方形。然后我们裁剪正方形并将其调整大小为512×512作为我们的扩散模型的输入。因此我们可以处理具有任意纵横比和极小或极大区域框的场景图像。基准。为了定量结果我们使用DreamBooth [42] 提供的30个新概念构建了一个新的基准用于目标图像。对于场景图像我们手动从COCO-Val [31] 中选择了80张带有框的图像。因此我们为对象-场景组合生成了2,400个图像。我们还在VitonHDtest [13] 上进行了定性分析以验证虚拟试穿的性能。评估指标。在我们构建的DreamBooth数据集上我们遵循DreamBooth [42] 计算CLIPScore和DINO-Score因为这些指标可以反映生成区域与目标对象之间的相似度。此外我们组织了一个由15名注释者组成的用户研究从保真度、质量和多样性的角度对生成结果进行评分。 4.2 与现有替代方案的比较 基于参考的方法。在图5中我们展示了与以前的基于参考的方法相比的可视化结果。Paint-by-Example [56] 和 Graphit [16] 支持与我们相同的输入格式它们将目标图像作为输入无需参数调整即可编辑场景图像的局部区域。IP-Adapter [58] 是一种支持图像提示的通用方法我们使用其修复模型进行比较。我们还比较了Stable Diffusion [41]这是一个文本到图像模型我们使用其修复版本并提供详细的文本描述作为条件以进行文本描述的目标生成。结果表明以前的基于参考的方法只能保持与背包上的狗脸等特征和树懒玩具颜色等图案的粗略一致性。然而由于这些新概念没有包含在训练类别中它们的生成结果与ID-consistent相差甚远。相比之下我们的AnyDoor在零样本图像定制方面展现出了高度忠实的细节表现。 基于调整的方法。定制生成被广泛探索。以前的工作[10, 18, 33, 42, 45]通常微调特定主题的文本反转以呈现目标对象从而使生成具有任意文本提示。与以前的基于参考的方法相比它们可以更好地保持保真度但存在以下缺点首先微调通常需要4-5个目标图像并且需要近一个小时其次它们无法指定背景场景和目标位置第三当涉及到多主题组合时不同主题的属性经常会混在一起。在图6中我们包括了基于调整的方法进行比较并同样使用Paint-by-Example [56] 作为以前的基于参考方法的代表。结果表明Paint-by-Example [56] 对于像狗和猫这样的训练类别第3行表现良好但对新概念第1-2行表现不佳。DreamBooth [42]、Custom Diffusion [27] 和 Cones [33] 对新概念提供了更好的保真度但仍然遭受“多主题混淆”的问题。相比之下AnyDoor 拥有基于参考和基于调整方法的优势可以无需参数调整就能生成多主题组合的高保真结果。 用户研究。我们组织了一个用户研究比较Paintby-Example [56]、Graphit [16] 和我们的模型。我们让15名注释者对30组图像进行评分。对于每组我们提供一个目标图像和一个场景图像并让这三种模型各自生成四个预测。我们准备了详细的规定和模板从三个方面对图像进行评分Fidelity保真度、Quality质量和Diversity多样性。Fidelity 衡量ID保持的能力Quality 考虑生成图像是否和谐不考虑保真度。由于我们不鼓励“复制粘贴”风格的生成我们使用Diversity 来衡量四个生成提议之间的差异。用户研究结果列在表2中。它表明我们的模型在保真度和质量方面拥有明显的优势尤其是保真度。然而由于[16, 56] 只保持了语义一致性而我们的方法保留了实例身份。它们自然有更大的多样性空间。在这种情况下AnyDoor 仍然比[16]获得了更高的评分并且与[56] 有竞争性的结果这验证了我们方法的有效性。 5. 结论 我们提出了AnyDoor用于对象传送。核心思想是使用区分性的ID提取器和频率感知的细节提取器来表征目标对象。在大量视频和图像数据的组合上训练我们能够在场景图像的特定位置合成对象并有效控制形状。AnyDoor为一般区域到区域映射任务提供了一种通用解决方案并可能对各种应用产生益处。 局限性 尽管AnyDoor在保持对象识别方面展示了令人印象深刻的结果但它在处理小字符或标志等细节方面仍然存在挑战。这个问题可能通过收集相关的训练数据、扩大分辨率和训练更好的VAE解码器来解决。
http://www.zqtcl.cn/news/275337/

相关文章:

  • 建一个电商网站多少钱一起做网店货源app
  • 做网站用lunx代理记账 营销型网站
  • 凡客做网站怎么样WordPress分类目录 前100篇
  • 腾讯wordpress 建站教程本地的上海网站建设公司
  • 深圳市南山区住房和建设局官方网站上海专业网站建设公司站霸网络
  • 建网站的8个详细步骤网站集约化建设讲话
  • 建设局哪个网站查证南京注册公司多少钱
  • 免费的网站制作郑州中森网站建设
  • 网站关键词搜不到了濮阳网络教育
  • 推荐股票的好网站如何做好网站宣传
  • 免费网站模板网大型网络游戏
  • 网站开发语言数据库有几种广东省建设厅官网查询
  • 建新建设集团有限公司网站土巴兔装修公司电话
  • 百度网站审核期时间wordpress如何实现收费会员制
  • delphi 2010 网站开发wordpress 变装小说
  • asp.net电子商务网站前台模板企业所得税优惠政策2021年小微企业
  • 成都网站建设 lkcms深圳做网站哪个公司最好
  • 网站降权处理关于网站建设心得体会
  • 互联网站点与wordpress集成软件
  • 网站页面图片布局如何设计最新热点新闻事件
  • 学网站建设难四会市城乡规划建设局网站
  • 网站源码分享网html代码入门基础
  • 农产品网站开发方案陕西建设网成绩查询
  • 网站效益分析iis添加网站ip地址
  • 宣传海报在什么网站做网站建设的能力
  • 温州网站优化优化课程设置
  • 企业推广网站有哪些做百度推广需要什么条件
  • 如何实现网站的快速排名怎么做网站模板
  • 数据型网站建设wordpress 阅读统计
  • a做爰网站集宁建设局网站