当前位置: 首页 > news >正文

网站建设收费标准不一手机网站建设技术方案

网站建设收费标准不一,手机网站建设技术方案,做企业宣传片的网站,wordpress子目录和多域名文本到图像生成在扩散模型的出现下取得了显著进展。然而#xff0c;基于文本生成街景图像仍然是一项困难的任务#xff0c;主要是因为街景的道路拓扑复杂#xff0c;交通状况多样#xff0c;天气情况各异#xff0c;这使得传统的文本到图像模型难以处理。为了解决这些挑战… 文本到图像生成在扩散模型的出现下取得了显著进展。然而基于文本生成街景图像仍然是一项困难的任务主要是因为街景的道路拓扑复杂交通状况多样天气情况各异这使得传统的文本到图像模型难以处理。为了解决这些挑战今天给大家分享一个新颖的可控文本到图像框架名为Text2Street。在该框架中首先引入了基于车道的道路拓扑生成器通过计数适配器实现文本到地图的生成具有准确的道路结构和车道线实现可控道路拓扑生成。然后提出了基于位置的目标布局生成器通过目标级边界框扩散策略获得文本到布局的生成实现可控交通目标布局生成。最后设计了多控制图像生成器将道路拓扑、目标布局和天气描述集成在一起实现可控街景图像生成。大量实验表明所提出的方法实现了可控的街景文本到图像生成并验证了Text2Street框架在街景中的有效性。 介绍 文本到图像生成作为计算机视觉的一个重要任务旨在仅基于文本描述生成连贯的图像。近年来针对常见场景如人物和目标的文本到图像生成已经付出了很多努力。特别是随着扩散模型的出现取得了显著进展。然而在专业领域生成图像同样具有重要价值包括自动驾驶、医学图像分析、机器人感知等。对于街景的文本到图像生成在自动驾驶感知和地图构建的数据生成方面具有特殊重要性但目前仍相对未被充分探索。 街景文本到图像生成作为一个尚未充分开发的任务面临着几个严峻的挑战可以分为三个主要方面。首先生成符合交通规则的道路拓扑结构是一个挑战。一方面如下图1a所示从文本-图像对中学习道路结构受限于图像中不完整的道路结构信息这是由于有限的成像角度和频繁的遮挡所导致的。这种复杂性使得在nuScenes数据集上微调的稳定扩散模型难以生成预期的图像。另一方面如下图1b所示生成符合交通规则且与文本中指定的车道线数量相匹配的车道线也是一个极具挑战性的任务。第二交通状态的表示是街景图像中的一个关键元素通常通过存在的交通目标数量来实现。然而使用当前模型生成指定数量的交通目标并遵循运动规则经常无法达到预期。如下图1c所示现有方法往往缺乏对精确数字要求的敏感性。例如尽管我们的目标是生成一个有两辆车的道路场景但稳定扩散模型的实际输出往往包括数量明显更多的车辆。最后天气条件通常取决于场景内容基于这些条件直接生成图像往往会产生模糊或次优结果如下图1d所示。由于存在这三个挑战街景文本到图像生成是计算机视觉中一项具有挑战性的任务。 为了解决前面提到的挑战本文提出了一种新颖的用于街景的可控文本到图像框架称为Text2Street如图2所示。 在这个框架内首先引入了基于车道的道路拓扑生成器利用文本描述创建表示复杂道路拓扑的局部语义地图。该生成器还通过计数适配器在语义地图内生成符合指定数量和交通规则的车道线。随后引入了基于位置的目标布局生成器以捕获多样化的交通状态。通过采用目标级边界框扩散策略它根据文本描述生成符合指定数量和交通规则的交通目标布局。最后通过姿态采样将道路拓扑和目标布局投影到相机的成像视角中。通过多控制图像生成器将投影的道路拓扑、目标布局和文本天气描述集成在一起生成最终的街景图像。实验验证证实了我们提出的方法从文本输入生成街景图像的有效性。 本文的主要贡献如下 提出了一种新颖的用于街景的可控文本到图像框架仅基于文本描述实现了对道路拓扑、交通状态和天气条件的控制。 引入了基于车道的道路拓扑生成器能够生成特定的道路结构以及车道拓扑。 提出了基于位置的目标布局生成器能够生成符合交通规则的特定数量的交通目标。 提出了多控制图像生成器能够整合道路拓扑、交通状态和天气条件实现多条件图像生成。 相关工作 文本到图像生成 近年来许多方法致力于处理通用的文本到图像生成任务。例如AlignDRAW 在画布上迭代地绘制斑点同时关注描述中的相关词语。GAWWN 根据生成对抗网络的指导根据描述中的指令合成图像描述了在哪个位置绘制什么内容。DALLE 描述了一种简单的方法来完成这个文本到图像任务基于一个Transformer该Transformer自回归地对文本和图像 tokens建模形成单一的数据流。DALLE2提出了一个两阶段模型一个先验模型根据文本标题生成一个 CLIP 图像embedding一个解码器根据图像embedding生成图像。DDPM提出了使用扩散模型进行高质量图像合成的结果扩散模型是一类受到非平衡热力学考虑的潜变量模型。Stable Diffusion将扩散模型应用于预训练自编码器的潜空间中进行训练并通过在模型架构中引入交叉注意力层将扩散模型转化为强大而灵活的生成器用于一般的条件输入。这些方法在通用的文本到图像生成任务中取得了显著的结果。然而在街景文本到图像任务中它们的效果并不值得称赞。 街景图像生成 最近在街景图像生成方法的研究中出现了一波热潮。例如SDM 分别处理语义布局和嘈杂图像。它将嘈杂图像馈送给 U-Net 结构的编码器同时将语义布局馈送给解码器采用多层空间自适应归一化操作符。BEVGen 合成一组与交通场景的鸟瞰布局相匹配的逼真且空间一致的周围图像。BEVGen 结合了一种新颖的跨视角转换与空间注意力设计学习相机与地图视图之间的关系以确保它们的一致性。GeoDiffusion 将各种几何条件转换为文本提示并为预训练的文本到图像扩散模型提供支持用于高质量的检测数据生成并能够对边界框以及自动驾驶场景中的额外几何条件如相机视图进行编码。BEVControl 提出了一种两阶段生成方法可以生成准确的前景和背景内容。这些方法通常需要BEV地图、目标边界框或语义mask的输入来生成图像。然而几乎没有研究仅依赖文本生成街景图像。在本文中主要关注解决街景文本到图像生成的问题。 提出的方法 为了解决街景文本到图像生成中的这些挑战即复杂的道路拓扑结构、多样化的交通状况和各种天气条件引入了Text2Street这是一个新颖的可控框架如前面图2所示。 概述 Text2Street 接受街景描述提示例如“一个有路口、3条车道、4辆汽车和1辆卡车在晴天行驶的街景图像”作为输入并生成相应的街景图像。在主要流程之前输入提示通过一个大语言模型例如GPT-4进行解析以提取道路拓扑、交通状况和天气条件的描述然后将其输入三个主要组件。 第一个组件是基于车道的道路拓扑生成器它将道路拓扑描述“路口、3条车道”作为输入并生成局部语义地图。第二个组件是基于位置的目标布局生成器它将交通状况中的交通目标描述“4辆汽车和1辆卡车”作为输入并生成交通目标的布局。第三个组件是多控制图像生成器它将道路拓扑、目标布局和天气条件描述“晴天”作为输入并输出与原始街景描述提示相匹配的图像。 基于车道的道路拓扑生成器 对于稳定扩散模型直接生成符合道路拓扑的图像包括道路结构和车道拓扑是困难的。为了解决这个问题这里引入了基于车道的道路拓扑生成器LRTG如下图3所示。 这个生成器并不直接产生道路图像相反它首先创建一个描述道路结构的局部语义地图代表了一个完整的区域级道路结构包括可行驶区域、交叉口、人行道、斑马线等。同时为了确保生成的车道线符合交通规则即等距和平行车道在语义地图上对车道线进行特征化和生成这比直接在透视视图图像上生成车道线更容易和更可控。此外为了确保车道线的数量与提供的文本一致还引入了一个计数适配器以精确生成指定数量的车道线。在LRTG中仅生成语义地图这作为街景图像的一个重要中间步骤稍后进一步详细介绍。 在生成局部语义地图时利用稳定扩散模型根据CLIP文本编码器对道路拓扑描述进行编码。随后编码输入被馈送到U-Net的交叉注意力层中以去噪图像潜变量最终输出相应的语义地图。与稳定扩散模型一致学习目标如下 其中 x ∈ 是从标记的语义地图中裁剪出来的在 RGB 空间中。E(·) 是预训练自编码器的编码器z E(x) 表示编码图像的潜变量 来自于时间步 t 的正向扩散过程y 是文本提示τ(·) 表示预训练的 CLIP 文本编码器术语 ϵ 表示目标噪声而 (·) 表示用于预测噪声的时间条件 U-Net。这种方式确保了在语义地图中生成道路结构和车道线形状的合理性。 为了精确控制车道线的数量计数适配器 收集了 U-Net 所有交叉注意力层的注意力分数。然后这些分数被重塑以匹配相同的分辨率然后平均以产生所有 tokens的注意力特征。从这些注意力特征中选择与 tokens“车道线”相对应的特征 。这些选定的特征经过两个卷积层卷积核为 3×3和一个全连接层的进一步处理用于预测车道线的数量 。 实现精确控制车道线数量的学习目标如下 根据公式1和2可以联合优化LRTG以生成局部语义地图包括所需的道路结构和车道线。 基于位置的目标布局生成器 为了确保生成的图像能够描绘多样化的交通状况利用大语言模型将交通状态转换为交通目标的数量例如汽车、卡车、行人等。然后提出了基于位置的目标布局生成器POLG根据目标数量的文本描述创建目标布局如下图4所示。 为了确保生成指定数量的目标采用了目标级别的边界框扩散策略来生成目标边界框的位置。同时为了确保生成的交通目标符合交通规则将LRTG中的局部语义地图纳入到边界框扩散过程中。通过POLG生成交通目标的布局信息这也作为生成最终街景图像的中间步骤。 在边界框扩散策略中首先将交通目标表示为位置向量 其中 表示目标位置的坐标 表示目标的尺寸 表示目标的偏航角 表示目标的类别。随后根据扩散模型 DDPM对位置向量进行扩散。此外为了确保目标遵守交通规则例如汽车必须在道路上行驶而不能逆行使用 ControlNet将来自 LRTG 的局部语义地图作为 POLG 的控制因素。最终学习目标如下 其中o 表示目标的位置向量 来自于时间步 t 的正向扩散过程m 表示局部语义地图C(·) 表示 ControlNet。其他符号与公式1中的符号一致。根据公式3可以通过基于文本描述的 POLG 优化和生成符合交通状况的交通目标的布局信息。 多重控制图像生成器 为了生成与道路拓扑和交通状况相符合的具有真实天气的图像引入了多重控制图像生成器MCIG如下图5所示。 在这两个信息进入MCIG之前进行了相机姿态采样和图像投影以有效利用先前生成的局部语义地图和交通目标布局。这导致了透视视图下的2D道路语义mask 和交通目标布局地图 如前面图2所示。2D交通目标布局图也被表示为2D交通目标位置向量 。投影使用基于内在和外在转换的传统方法其中内参使用固定的相机参数外参在先前相机高度附近进行采样。 如图5所示MCIG包括五个模块目标级别位置编码器、文本编码器、语义mask控制网络、目标布局控制网络和朴素稳定扩散。前四个模块根据四种不同类型的信息控制图像生成即2D交通位置向量、描述天气的文本、2D道路语义mask和2D交通目标布局图。 目标级别位置编码器对2D交通目标位置向量进行编码包括2D边界框和目标类别表示为 边界框编码器将目标边界框映射到高维空间确保网络可以学习更高频率的映射函数并专注于每个目标的位置。具体而言边界框编码器是基于正弦和余弦的编码函数。编码函数的数学形式如下 其中BE(·) 应用于每个目标 Pi 的边界框的每个组件即 并且 L 被经验性地设定为 10。同时类别编码器 CE 利用 CLIP 文本编码器对目标类别例如“汽车”进行编码。随后边界框编码和类别编码在每个目标的特征embedding维度上进行串联。然后通过一个两层全连接网络 (·) 将串联特征映射到与原始文本编码器embedding相同维度的特征中作为位置embedding。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码生成文本embedding。 目标位置编码和天气文本embedding在标记维度上进行串联后分别输入到稳定扩散的交叉注意力层中控制图像生成过程中的目标位置和天气。同时语义mask控制网络和目标布局控制网络采用两个类似的控制网络利用图像即语义mask和布局地图作为输入在街景图像生成过程中控制道路拓扑和目标布局。MCIG 的学习目标函数如下 为了方便表述P 是 {} 的集合。 通过使用公式6对 MCIG 进行优化获得符合关于道路拓扑、交通状态和天气条件的初始提示的街景图像。 实验和结果 实验设置 数据集。 为了验证所提出方法的性能在公共自动驾驶数据集 nuScenes 上进行所有实验。nuScenes 数据集包含 1,000 个街景场景分别用于训练/验证/测试的数量为 700/150/150。每个场景大约包含 40 帧每帧包括由安装在自动驾驶车辆上用于全景视图的六个摄像头拍摄的六个 RGB 图像。此外每帧都带有一个包含 32 种语义类别的标注语义地图。为了简单起见在所有实验中仅使用由前置摄像头拍摄的图像。 评估指标。为了全面评估街景图像的文本到图像生成从图像级别和属性级别对生成结果进行评估。 在图像级别评估中使用Frechet Inception Distance (FID) SFID来衡量图像的保真度以及CLIP分数SCLIP来衡量图像与文本的对齐性。 在属性级别评估中主要衡量文本到图像街景生成在四个方面的准确性道路结构、车道线计数、交通目标计数和天气状况。对于这四个指标在nuScenes数据集上训练了四个神经网络来评估生成图像的分数。具体来说基于ResNet-50的两类分类器用于道路结构准确性Sroad的训练以区分街景RGB图像中的道路结构是“交叉口”还是“非交叉口”。对于车道线计数准确性Slane类似地在ResNet-50上训练了一个六类分类器以区分街景RGB图像中车道线的数量是否等于0、1、2、3、4或≥ 5。对于交通目标计数准确性基于YOLOv5的目标检测器被训练用于评估街景RGB图像中交通目标的数量。对于天气状况准确性还在ResNet-50上训练了一个四类分类器以区分街景RGB图像中的天气状况是晴天、晴夜、雨天还是雨夜。所有模型均在nuScenes训练数据集上进行训练并用作街景图像生成的属性级别评估的评估指标。 训练和推断。在训练阶段分别训练了三个生成器即车道感知道路拓扑生成器LRTG、基于位置的目标布局生成器POLG和多重控制图像生成器MCIG。LRTG和MCIG使用Stable Diffusion进行初始化POLG基于带有ControlNet修改的DDPM进行随机初始化并且CLIP 文本编码器采用预训练权重固定。对于这三个生成器使用AdamW优化器进行10个epochs的训练学习率为batch size大小为32。此外LRTG中的语义地图被调整为512×512的分辨率MCIG中的RGB图像被调整为895×512的分辨率。在推断阶段这三个生成器按顺序进行推断去噪迭代次数都设置为30次。 与最先进方法的比较 将我们的方法与几种最先进的文本到图像生成算法进行比较包括Stable Diffusion、Stable Diffusion 2.1和Attend-and-Excite在nuScenes验证数据集上的表现如下表1所列。这些方法都是在nuScenes训练数据集上进行微调的。请注意我们还将在nuScenes验证数据集上的性能列为“参考”。 将我们的方法与最先进方法进行比较可以看到我们的方法在表1中几乎所有指标上都表现出色。特别是我们的方法在属性级别指标即上表现最佳表现出了对于细粒度的文本到图像街景图生成的优越可控性。具体而言相对于第二表现最好的方法我们的方法在指标上分别表现出了明显的4.50%和14.91%的改进。此外我们的方法在图像级别指标即上也表现更好反映了其整体生成质量和图像-文本一致性的优越性。总的来说这些观察结果验证了我们提出的方法在街景图像可控生成方面的有效性。 我们的方法生成的视觉示例如下图6所示。从下图6可以明显看出与其他方法相比我们的方法在处理不同道路结构第1和第4行、不同车道线数量第1和第3行、不同数量的交通目标第1和第2行以及不同天气条件第2和第3行时都能产生更好的结果。这表明我们的方法可以有效地仅基于文本生成街景图像并暗示了其在街景文本到图像生成中的可控性和优越性。 消融分析 为了评估各个组件的有效性在nuScenes验证数据集上进行了消融实验比较了提出方法内部性能的变化。 首先为了验证车道感知道路拓扑生成器LRTG的有效性引入了三个模型进行消融比较。第一个模型称为“基线”是一个仅带有文本编码器的简单多重控制图像生成器MCIG实际上是一个 Stable Diffusion 模型。第二个模型称为“”是在“基线”的基础上增加了不包括车道线控制的 LRTG。第三个模型“A2”在第一个模型的基础上添加了具有车道线控制的 LRTG。这三个模型的比较如下表2的前三行所示。可以观察到引入道路结构控制“A1”显著提高了指标而同时引入道路结构和车道线“”进一步提升了指标。这证实了LRTG在控制道路拓扑方面的有效性。 第二为了验证基于位置的目标布局生成器POLG的有效性将POLG添加到“基线”中称为“B”。比较前面表2的第一行和第四行显然包含POLG显著提高了指标证明了POLG在交通目标生成中的控制能力。 第三为了验证不同模块的兼容性我们还列出了模型“C”即Text2Street该模型结合了所有三个模块。从前面表2的最后一行可以看出“C”在所有指标上都取得了最佳性能确认了不同模块之间的兼容性。 目标检测的文本到图像生成 为了展示街景文本到图像生成对下游任务的实用性选择目标检测作为代表性任务。使用提出的Text2Street基于随机提示生成30,000张图像作为原始训练数据的补充以在nuScenes数据集上训练YOLOv5如表3所示。结果表明我们方法生成的图像对于下游街景任务是有益的突显了街景文本到图像生成的潜力。 图像编辑 除了街景文本到图像生成外本文方法还允许对局部语义地图、目标布局或文本进行修改从而在最初生成的RGB图像中编辑道路结构、车道线、目标布局和天气条件如下图7所示。 结论 本文提出了一种新颖的用于街景的可控文本到图像生成框架。这个框架设计了车道感知道路拓扑生成器以文本到地图的方式对道路拓扑施加控制。此外提出了基于位置的目标布局生成器通过文本到布局的方式控制交通目标的布局。此外多重控制图像生成器被构建起来以整合多重控制来生成街景图像。实验结果证实了所提出方法的有效性。 参考链接 [1] Text2Street: Controllable Text-to-image Generation for Street Views 地址https://arxiv.org/pdf/2402.04504 更多精彩内容请关注公众号AI生成未来 欢迎加群交流AIGC技术
http://www.zqtcl.cn/news/500036/

相关文章:

  • 站长统计芭乐鸭脖小猪电商平台哪个最好
  • 女与男爱做电影网站免费企业公司网站建设方案
  • 尚品本色木门网站是哪个公司做的大庆建设公司网站
  • 做网做网站建设的网站怎么用别人网站做模板
  • 电子商务网站购物车怎么做网站站点创建成功是什么意思
  • 如何做招聘网站的评估新浪微博可以做网站吗
  • 加强网站建设的制度wordpress如何清空
  • 轻松筹 的网站价格做网站建设意识形态
  • 有.net源码如何做网站湖南宣传片制作公司
  • dede网站模板怎么安装教程青岛需要做网站的公司
  • 静态双语企业网站后台源码北京网站关键词优化
  • 石家庄手机网站建设公司wordpress侧边栏显示子分类文字数
  • 公司网站客户案例个人做 网站2019
  • 个人网站怎么申请销售策划
  • 网站被黑 禁止js跳转企业为什么要建立集团
  • 建设网站的各种问题上海品牌女装排行榜前十名
  • seo优化搜索引擎网站优化推广网络关键词优化-乐之家网络科技商城网站备案能通过吗
  • 江门网站建设推广策划网站改版的宣传词
  • 网站建设三大部分国外购物平台网页界面设计
  • 公司商城网站建设方案wordpress旗舰
  • 京东云服务器怎么做网站企业宣传网站怎么做
  • 如何自学网站建设云南网爱我国防知识竞赛
  • 什么网站可以做投资设计接单
  • 网站内容批量替换桐乡网站制作
  • 怎么免费做网站教程制作xml网站地图文件
  • 广西智能网站建设哪家好网红商城
  • 关于建设网站的情况说明书wordpress 在线检测
  • 帝国cms 网站迁移错版怎样做心理咨询网站
  • 烟台建网站wordpress重写规则
  • 上海网站建设怎么赚钱平顶山网站建设服务公司