当前位置: 首页 > news >正文

网站规划书 确定网站建设目的hao123手机浏览器

网站规划书 确定网站建设目的,hao123手机浏览器,wordpress中front-page,音乐网站建设规划微软 NWA 系列主要功能及发布时间如下#xff1a; 22年11月#xff0c;微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NWA#xff0c;直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。23年3月#xff0c;微软亚…微软 NÜWA 系列主要功能及发布时间如下 22年11月微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。23年3月微软亚洲研究院发布多模态新模型NUWA-XL可直接生成11分钟长动画。23年8月微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNUWA。 生成视频时主要关注两种运动即摄像机和对象运动。DragNUWA同时引入simultaneously introduce文本、图像和轨迹信息三种控制因素使得模型能够同时控制摄像机运动camera movements、多个对象移动object motions以及复杂轨迹complex trajectories从语义、空间和时间层面对视频内容实现细粒度控制从而生成具有真实世界场景和艺术绘画特色的视频。 您只要在图上Drag给出运动轨迹DragNUWA就能让图像中的物体对象按照该轨迹移动位置生成一致连贯的视频 为解决当前研究领域中开放域轨迹控制open-domain trajectory control限制的问题DragNUWA提出了三个方面的轨迹建模 一个轨迹采样器Trajectory SamplerTS能够从开放域视频流中动态采样轨迹保证了任意轨迹arbitrary trajectories的开放域控制。一个多尺度融合Multiscale FusionMF不同细粒度的控制轨迹使得视频的生成更加灵活和精确。一个自适应训练策略Adaptive TrainingAT确保视频生成的一致性和连贯性。 2024年1月微软更新 DragNUWA 到 DragNUWA 1.5 版本并开源了代码。 Abstract 近年来可控视频生成引起了极大的关注但是存在两个主要限制 首先大多数现有的工作都单一集中在文本、图像或基于轨迹的控制上无法在视频内容生成中实现细粒度的控制。其次轨迹跟踪控制研究仍处于早期阶段大多数实验是在 Human3.6M 等简单数据集上进行。 该约束限制了模型处理开放域图像的能力并有效地处理复杂的曲线轨迹。在本文中我们提出了 DragNUWA这是一种基于开放域扩散视频生成模型。 为了解决现有工作中控制粒度不足的问题我们同时引入文本、图像和轨迹信息从语义、空间和时间角度对视频内容进行细粒度控制。 为了解决当前研究中有限的开放域轨迹控制问题我们提出了三个方面的轨迹建模 轨迹采样器 (TS) 实现任意轨迹的开放域控制多尺度融合 (MF) 控制不同粒度的轨迹自适应训练 (AT) 策略生成与轨迹一致的视频。 实验验证了 DragNUWA 的有效性证明了它在视频生成细粒度控制方面拥有优越的性能。 1 Introduction 可控视频生成是当前研究热点这些研究大多集中在可控的视觉生成上。早期的研究主要强调图像到视频的生成使用初始帧图像作为控制在空间上操纵生成的视频。然而仅依靠图像作为控制并不能确定视频的后续帧。因此人们对文本到视频的研究越来越感兴趣使用文本在语义上约束视频生成。一些研究还利用文本和图像条件对视频生成进行更精确的控制。尽管如此语言和图像在表达视频时间信息方面仍然有限例如相机运动和复杂的物体轨迹。 为了控制视频的时间信息基于轨迹的控制已成为一种用户友好的方法越来越受到研究的关注。CVG、C2M对图像和轨迹进行编码、预测光流图并将特征扭曲warp为可控视频生成的中间结果。然而这些操作通常会导致不自然的扭曲。为了解决这个问题II2V和iPOKE将视频压缩成密集的潜在空间并学习使用 RNN 操纵这些潜在变量或者MCDiff通过自回归方式利用扩散潜在Diffusion latent预测未来帧。虽然MCDiff取得了很好的结果但它依赖于HRNet为每个人提取17个关键点来构建数据而且它只能控制人类运动。此外MCDiff 和上述模型忽略了考虑语言的控制这反过来限制了它们有效控制视频的能力。 上述研究启发了我们进行可控视频生成的双重愿景。 首先现有工作中对文本、图像和基于轨迹的控制考虑还不够全面。我们认为这三种控制是必不可少的因为它们都有助于从语义、空间和时间的角度调节视频内容。如下图仅文本和图像的组合不足以传达视频中存在的复杂运动细节可以通过结合轨迹信息来补充。此外虽然图像和轨迹可能无法充分表示视频中的未来对象但语言可以弥补这一缺点。最后仅依靠轨迹和语言可以在表达抽象概念时产生歧义例如区分现实世界的鱼和鱼的绘画而图像可以提供必要的区别。 其次目前对轨迹控制的研究仍处于早期阶段大多数实验是在Human3.6M等简单数据集上进行的。该约束限制了模型处理开放域图像并处理复杂的弯曲轨迹、多个对象运动和相机运动的能力。 基于这些观察结果我们提出了 DragNUWA我们工作的主要贡献如下 我们介绍了 DragNUWA这是一种端到端的视频生成模型可以无缝集成三个基本控制——文本、图像和轨迹——提供强大且用户友好的可控性。我们专注于三个方面的轨迹建模轨迹采样器 (TS) 以实现任意轨迹的开放域控制多尺度融合 (MF) 控制不同粒度的轨迹以及自适应训练 (AT) 策略生成遵循轨迹的一致性视频。我们进行了广泛的实验来验证 DragNUWA 的有效性证明了它在视频合成的细粒度控制中的优越性能。 2 Related Works 2.1 Text/Image Control in Video Synthesis 早期的研究主要强调图像到视频的生成后来引入文本描述在语义上控制视频生成。 GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions.(MSRA,21.4)NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion.(MSRA,21.11)CogVideo: Large-scale Pretraining for Text-to-Video Generation via TransformersTsinghua,22.5Make-A-Video: Text-to-Video Generation without Text-Video Data.(Meta,22.9)Imagen Video: High Definition Video Generation with Diffusion Models(Google,22.10Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models.(Nvidia,23.4) 然而仅靠文本不能准确地描述视觉的空间信息。因此MAGE强调文本到图像到视频利用来自文本的语义信息和来自图像的空间信息进行精确的视频控制。同样GEN-1使用交叉注意机制将深度图与文本集成以进行控制。在长视频生成领域文本到图像到视频也得到了广泛的应用。例如[ Variable Length Video Generation from Open Domain Textual Descriptions ] 通过自回归引入前一帧和文本来生成后续帧实现了长视频生成NUWA-XL采用分层扩散架构根据前一帧和文本连续完成中间帧。 虽然文本和图像可以有效地传达语义和外观但它们很难充分表示复杂的运动信息和相机运动。与这些方法不同DragNUWA 将轨迹控制添加到文本和图像控制中从而能够在语义、外观和运动方面对视频进行细粒度控制。 2.2  Trajectory Control in Video Synthesis 为了更好地控制视频中的运动未来的视频预测方法根据给定的视频帧控制后续帧生成。另一方面视频到视频的生成将完整视频或视频草图的风格转移到一个新的领域提供了丰富的控制信息。然而这要求用户提供视频输入并限制细粒度控制因为风格迁移基于原始视频的骨架。因此出现了图像轨迹到视频的方法通过图像中给出的轨迹来控制视频的发展。然而由于轨迹控制在像素级上运行它是稀疏的容易出现歧义。为了解决这个问题首先将稀疏笔画转换为密集流然后使用自回归基于密集流预测未来的帧。为了实现对开放域对象的控制Video Composer 最近使用 MPEG-4 从视频中提取运动矢量信息作为训练条件但由于运动矢量中缺乏高级语义信息只能控制简单的对象运动。 与之前研究包括CVG、C2M、II2V、iPOKE和MCDiff相比DragNUWA只关注管理人体运动或基本物体运动通过拖动图像中的任何物体促进对多个对象的控制使其适应复杂的轨迹和相机运动。 DragNUWA成为实现细粒度开放域视频生成的开创性方法。 3 Method 图 3DragNUWA训练流程概览。DragNUWA支持三种可选输入文本p、图像s和轨迹g并专注于从三个方面设计轨迹。首先轨迹采样器TS从开放域视频流中动态采样轨迹。其次多尺度融合MF将轨迹与UNet架构的每个块中的文本和图像深度集成。最后自适应训练AT将模型从光流条件调整为用户友好的轨迹。最终DragNUWA能够处理具有多个对象及其复杂轨迹的开放域视频。  与以往要么只支持基于文本text-based、基于图像image-based或基于轨迹trajectory-based控制的工作不同DragNUWA旨在结合所有三种控制类型同时强调从三个方面的轨迹建模: 1)为了实现任意轨迹的开放域控制在训练过程中使用轨迹采样器(TS)(在第3.1节中介绍)直接从开放域视频流中采样轨迹而不是特定领域如MCDiff 中使用的人体姿势轨迹。 2)为了实现对不同轨迹粒度的控制利用多尺度融合MF在第 3.2 节中介绍将轨迹下采样到各种尺度并将其与 UNet 架构每个块内的文本和图像深度集成而不是像[ Motion-Conditioned Diffusion Model for Controllable Video Synthesis ] 那样直接将控制与扩散噪声连接。 3)为了生成稳定且一致的视频我们采用了自适应训练AT在第 3.3 节中介绍方法最初以密集流为条件来稳定视频生成然后在稀疏轨迹上进行训练以适应模型。 3.1 Trajctory SamplerTS  在训练数据中由于它只包含视频和文本对  v, p 因此从视频中提取轨迹至关重要。以往的研究主要利用关键点跟踪模型对视频轨迹进行预训练进行训练。然而这种方法有两个主要缺点。 首先由于这些模型是在特定领域例如人体姿势上训练的因此它们处理开放域视频的能力有限。 其次在实际应用中很难保证用户准确地输入关键点的轨迹导致训练和推理之间有gap。 为了便于开放域视频轨迹使用户能够输入任意轨迹我们设计了一种直接从视频光流中采样轨迹的轨迹采样器(TS)允许模型在开放域设置中学习各种可能的轨迹。 ###  TS工作流程为了实现开放域任意轨迹的控制DragNUWA使用轨迹采样器直接从开放域视频流WebVid和VideoHD中采样轨迹。 首先通过Unimatch光流估计器获取到视频对应的光流。获取轨迹的简单做法是取得视频第一帧到第二帧的光流信息依据光流变化强度进行采样。但是这种简单的采样会使得模型对不太运动的场景关注不够。因此作者采用了等概率均匀采集光流信息 λ 间隔同时考虑到要让采集到的光流尽可能覆盖图片所有区域作者添加了一个随机扰动项 δ 。通过上述操作之后拿到一个较为稀疏的光流 。随后作者将一张图片上最大轨迹数量定义为 N 在决定一张图片要从光流中保留多少条轨迹的时候就从均匀分布中随机采样一个数值n ∼ U [1, N ]。此外考虑到大小变动的轨迹强度作者最终依据多项式分布M从光流 中保留一定量轨迹 。需要注意的是  是逐帧更新的作者通过跟踪  来更新轨迹起始点的位置。由于此时得到的  比较稀疏所以作者对  进行高斯滤波得到最终的轨迹 。 3.2 Multiscale FusionMF Encoding of Video Encoding of Text Control Encoding of Image Control Encoding of Trajectory Control 对于文本条件 p通过提示交叉注意将其注入隐藏状态 h隐藏状态 h 作为 q 处理文本 p 作为 k和 v 处理。 为了支持各种条件组合我们在将文本、图像和轨迹输入多尺度融合之前通过随机删除 omitting它们将随机性引入训练过程。对于丢弃的文本我们使用空字符串作为替换而对于丢弃的图像和轨迹则使用全0填充的帧。通过这种涉及混合条件的训练范式我们的模型能够在不同条件组合的推理过程中生成一致的视频。 ### DragNUWA使用多尺度融合MF来在不同分辨率下融合文本、图像和轨迹信息。 首先完成视频v、图像s、文本p、轨迹g的编码。然后实现多尺度融合MF使模型可以同时接受text p, image s, and trajectory g作为条件输入。对于图片和轨迹 MF的操作是相同的。首先将轨迹和图像下采样到不同的尺度然后在UNet网络每个块中通过线性投影将轨迹和图像与文本提示融合到隐藏状态 h 中。文本按照潜在扩散模型LDM常规操作作用在UNet网络的 cross attention 的K、V上隐藏状态 h 作为Q。为了支持不同的条件组合训练过程中随机Drop掉一些文本、图像和轨迹信息以增强模型的泛化能力。 3.3 Adaptive TrainingAT 在保持视觉一致性的同时对图像和稀疏轨迹的视频生成过程进行调节是一项重大挑战。为了解决这个问题我们采用自适应训练Adaptive Training(AT)策略来优化 DragNUWA。在第一阶段为了生成视觉上和动态上一致的视频我们为模型提供提示p、密集光流 f 和重复第一帧 s 作为条件对模型进行优化使 UNet 输出 εθ (xt, p, s, f)与附加噪声ε之间的距离最小。考虑到光流的密度我们没有使用高斯滤波进行增强。损失方程如下 如果提供完整的光流  作为条件在保留第一帧的情况下更容易生成动态一致的视频。在第二阶段为了使模型从完整的光流适应于用户友好的轨迹我们继续使用轨迹采样器TS从原始光流中采样轨迹  来训练模型。损失方程变更为 尽管轨迹比光流稀疏得多但该模型能够生成与轨迹一致的动态同时保持从先前训练中学习到的稳定性和一致性。 ### 为保证生成连续的视频作者使用了AT策略其包括两个阶段。 在第一阶段使用完整的光流  作为轨迹对模型进行训练生成连续流畅的视频。在第二阶段使用降采样的轨迹  微调模型。 3.4 Inference 在推理过程中给定文本、图像和轨迹DragNUWA 能够生成真实和上下文一致的视频 v。文本由CLIP 文本编码器编码得到文本嵌入 p。图像重复 L 次并编码为 s。输入轨迹首先由高斯滤波器和零帧填充处理然后编码为 g。之后使用 Unet εθ (xt, p, s, g)从纯高斯噪声xT迭代采样 x0。最后通过图像自动编码器image autoencoder将采样的潜在编码 x0 解码为视频像素 v。 4 Experiments Table 1: Implementation details of DragNUWA.   4.1 Datasets 在训练过程中我们利用WebVid和VideoHD来优化DragNUWA。 WebVid 是一个庞大的数据集包含 1000 万个网络视频包含具有不同真实世界场景和相应的标题。它涵盖了广泛的运动模式使其适用于基于开放域轨迹的视频生成。VideoHD我们基于网络爬取的视频构建了 VideoHD 数据集。我们首先从互联网上收集了 75K 个高分辨率、高质量的视频剪辑。随后这些剪辑使用 BLIP2 进行标注。最后我们手动过滤掉生成结果中的一些错误。 4.2 Implementation Details 如表 1。 4.3 Trajectory Controllability 与现有的专注于文本或图像控制的研究相反DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性我们从摄像机运动和复杂的轨迹两个方面测试了DragNUWA。 Camera movements. 在视频制作中相机运动在为观众创建动态和引人入胜的视觉方面发挥着重要作用。不同类型的相机运动可以帮助讲述故事或强调场景中的元素。常见的相机运动不仅包括水平和垂直运动还包括放大和缩小。如图 4 所示我们发现虽然 DragNUWA 没有明确地模拟相机运动但它从开放域轨迹的建模中学习各种相机运动。 图 4通过使用相同的文本和图像同时改变拖动轨迹可以实现各种相机移动效果。例如放大和缩小效果可以通过在所需的缩放位置绘制方向轨迹来表达。  Complex Trajectories. 由于不同物体之间存在多个运动物体、复杂的运动轨迹和不同的运动振幅为视频生成中的运动建模带来了挑战。为了评估DragNUWA在精确建模复杂运动方面的能力我们使用相同的图像和文本对各种复杂的阻力轨迹进行了测试如图5所示。我们的研究结果表明DragNUWA可以可靠地控制复杂的运动。这包括几个方面首先DragNUWA 支持复杂的弯曲轨迹从而能够生成沿特定复杂轨迹移动的对象参见第 6 行。其次DragNUWA 允许可变轨迹长度轨迹更长导致运动幅度更大参见第 7行。最后DragNUWA 能够同时控制多个对象的轨迹。据我们所知目前还没有视频生成模型有效地实现了这种轨迹可控性突出了 DragNUWA 在未来应用中推进可控视频生成的巨大潜力。 图 5通过在改变拖动轨迹的同时使用相同的文本和图像可以实现各种复杂的轨迹效果。DragNUWA支持复杂的曲线轨迹允许可变轨迹长度并支持对多个对象的轨迹进行并发控制。  4.4 Essential of Three Controls 虽然DragNUWA主要强调轨迹控制建模但它也包含了对文本和图像的控制。我们认为文本、图像和轨迹分别代表了视频的三个基本控制方面之一语义、空间和时间视角。图6通过展示文本p、轨迹g和图像s的不同组合包括s2v、p2v、gs2v、ps2v和pgs2v说明了这些条件的必要性。需要注意的是我们没有对g2v和pg2v进行建模因为我们认为没有图像的轨迹是没有意义的。 图 6:DragNUWA通过集成三个基本控件来实现细粒度视频生成文本、图像和轨迹分别对应于语义、空间和时间方面。  s2v和p2v举例说明了当用作单独条件时图像和文本控制的约束。如s2v所示尽管图像单独提供了一些潜在的语义和动态信息但它不允许对背景和角色的运动进行精确控制。如p2v所示当只提供文本时模型成功地生成了与文本相关的视频然而外观和动态仍然完全不可控。gs2v和ps2v强调文本p和轨迹g的重要性。在没有文本的情况下无法确定模糊的图像是表示在海上冲浪还是在雪地上冲浪。在没有轨迹的情况下模型会自动假设角色正在向左移动。pgs2v演示了所有三个基本条件的综合影响能够控制在雪地上冲浪和向右移动。 值得一提的是一些研究将视频作为一种条件这超出了本研究的范围。我们关注的是基本条件而视频条件提供了过多的信息极大地限制了视频的创作。此外视频条件要求用户提供特定的视频材料因此在实际应用中提出了重大挑战。 5 Conclusion 我们提出了DragNUWA这是一种端到端的视频生成模型可以无缝地结合文本、图像和轨迹输入从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。此外我们的轨迹建模框架由轨迹采样器TS、多尺度融合MF和自适应训练AT组成解决了开放域轨迹控制的挑战从而能够根据复杂的轨迹生成连贯的视频。实验验证了DragNUWA的优越性证明了它能够有效地生成细粒度视频。 ### 作为一款创新性的工具DragNUWA 1.5提供了一个集成的控制框架可以同时处理文本、图像和轨迹信息能够适应开放域的任意轨迹使用自适应训练策略能够在保持视频一致性的同时适应用户友好的轨迹。同时DragNUWA 1.5也面临着一些挑战和限制。例如对于复杂和动态场景DragNUWA 1.5的生成效果可能还需要进一步优化。 本专题由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑旨在学习互助。内容来自网络侵权即删转发请注明出处。文中如有错误的地方也请在留言区告知。 DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory. DragNUWA-https://arxiv.org/pdf/2308.08089v1.pdf ProjectNUWA/DragNUWA1.5 · GitHub
http://www.zqtcl.cn/news/535590/

相关文章:

  • 建设一个地方门户网站厦门网站开发排名
  • 网站建设公司广告标题语网站设计主题有哪些
  • 网站推广方式主要通过做网站所需的知识技能
  • 我想在阿里巴巴网站开店_怎么做app建设网站公司
  • 西安做百度网站的制作网站公司选 择乐云seo
  • 网站优化建设河南手机模拟器
  • 网站建设运维标准深圳企业vi设计公司
  • 做网站怎么挣钱中小型企业网站建设
  • 深圳如何搭建建网站学校网站的建设与应用
  • 免费推广网站入口2023燕wordpress看图插件
  • 网站做不做301四川省住建设厅网站
  • 优化方案官网电子版一个网站做两个优化可以做吗
  • 企业网站排名提升软件智能优化上海网站制作的费用
  • 建分类信息网站西安高端模板建站
  • 南昌做网站哪家好成都三合一网站建设
  • 中国市政建设局网站做外单网站
  • 做本地网站赚钱吗wordpress 预约系统
  • 国外做名片网站优化网站最好的刷排名软件
  • 江西建设部网站网易企业邮箱密码格式
  • 网站哪个服务器好软装设计培训机构
  • 夜间正能量网站入口免费下载2022最新泛站群程序
  • 网站建设个人简历wordpress手写字体
  • 专门做商标的网站有哪些wordpress新文章加new
  • 全国商务网站大全木樨园网站建设公司
  • 网站搜索排名和什么有关系嘉兴建设局网站
  • 创建免费网站注意事项电商网站建设价格低
  • 网站开发接私单企业软文范例
  • 浙江省建设培训中心网站首页wordpress如何修改上传文件大小
  • 网站建设需要什么语言学完html怎么做网站
  • 国内外网站建设wordpress评论嵌套样式修改