网站改版死链接,东莞最新招聘,怎么免费创建网页,微网站栏目设置文章链接#xff1a;https://arxiv.org/pdf/2408.08189 项目链接#xff1a;https://360cvgroup.github.io/FancyVideo/ 亮点直击 本文介绍了FancyVideo#xff0c;据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。 … 文章链接https://arxiv.org/pdf/2408.08189 项目链接https://360cvgroup.github.io/FancyVideo/ 亮点直击 本文介绍了FancyVideo据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。 本文提出了跨帧文本指导模块CTGM该模块构建跨帧文本条件并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。 本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。实验表明该方法在定量和定性评估中均取得了最先进的结果。 合成动作丰富且时间一致的视频在人工智能领域仍然是一项挑战尤其是在处理较长时间的视频时。现有的文本到视频T2V模型通常使用空间交叉注意力来实现文本控制这等效于在没有针对特定帧的文本指导的情况下引导不同帧的生成。因此模型理解提示中所传达的时间逻辑并生成具有连贯动作的视频的能力受到限制。
为了解决这一局限性本文引入了FancyVideo一种创新的视频生成器它通过精心设计的跨帧文本指导模块CTGM改进了现有的文本控制机制。具体来说CTGM在交叉注意力的开始、中间和结束分别加入了时间信息注入器TII、时间相关性精炼器TAR和时间特征增强器TFB以实现帧特定的文本指导。首先TII将帧特定的信息从潜在特征中注入到文本条件中从而获得跨帧文本条件。然后TAR在时间维度上优化跨帧文本条件和潜在特征之间的相关矩阵。最后TFB增强了潜在特征的时间一致性。大量的实验包括定量和定性评估证明了FancyVideo的有效性。本文的方法在EvalCrafter基准测试中实现了最先进的T2V生成结果并促进了动态且一致的视频的合成。
方法
预备知识
潜在扩散模型潜在扩散模型LDMs是一类高效的扩散模型它将去噪过程转换到压缩的潜在空间中而不是像素空间中。具体来说LDMs使用VAE的编码器将图像压缩为潜在编码并通过在潜在编码上执行正向和反向扩散过程来学习数据分布。它假设一个正向过程逐渐将高斯噪声ϵ ∼ N(0, I)引入潜在编码z中得到 其中表示带有时间步长的噪声调度器。在反向过程中它通过以下目标训练一个去噪模型() 其中表示条件目标可以是噪声ϵ、去噪输入或ϵ。本文采用预测作为监督。
零终端SNR噪声调度先前的研究提出了零终端信噪比SNR来解决测试阶段和训练阶段之间的信噪比差异这会影响生成质量。在训练过程中由于噪声调度器残留的信号SNR在终端时间步T时仍不为零。然而在测试时当从随机高斯噪声中进行采样时采样器缺乏真实数据导致SNR为零。这种训练-测试差异是不合理的是生成高质量视频的障碍。因此参考过往研究者们扩大了噪声调度的范围并设置来解决这个问题。
模型架构
下图3展示了FancyVideo的整体架构。该模型结构为伪3D UNet它集成了源自文本到图像模型的冻结空间模块以及跨帧文本指导模块CTGM和时间注意力块。模型接受三个特征作为输入噪声潜在变量其中和表示潜在变量的高度和宽度表示帧数表示潜在变量的通道数mask 指示符第一帧的元素设为1其他帧设为0图像指示符第一帧为初始图像其他帧设为0。去噪输入Z通过沿通道维度将Zn、M和I连接起来形成表示为。在每个空间块中CTGM被用来捕捉文本提示中描述的复杂动态。之后应用时间注意力块来增强不同片段之间的时间关系。 跨帧文本指导模块
CTGM通过三个子模块改进了现有的文本控制方法时间信息注入器TII、时间亲和力精炼器TAR和时间特征增强器TFB如图(III)所示。在进入交叉注意力之前TII首先提取时间潜在特征然后基于Zt将时间信息融入文本embedding 中获得跨帧文本条件。随后TAR沿时间轴精炼和之间的亲和力增强文本指导的时间连贯性。最后TFB进一步增强特征的时间连续性。CTGM的计算过程可以形式化为 其中、和分别表示原始交叉注意力中的查询、键和值的线性层。超参数从查询的维度中获得。TII(·,·)、TAR(·)和TFB(·)分别表示TII、TAR和TFB。最终得到优化后的噪声潜在特征。以下是对这三个模块的详细描述。
时间信息注入器在先前的工作中文本embedding 被均匀地重复f次结果得到其中n表示embedding向量的长度。在执行空间交叉注意力之前将时间信息注入到embedding中从而使得在不同帧中对文本的关注点有所不同。在时间信息注入器TII中首先将噪声潜在特征Z从调整为并应用时间自注意力机制以获取。然后使用重复的文本embedding 作为查询噪声潜在特征作为键和值进行空间交叉注意力结果得到具有帧特定时间信息的文本embedding 。TII模块的形式化表达如下 其中表示时间自注意力表示空间交叉注意力。通过TII获得了具有时间信息的噪声潜在特征以及与潜在特征对齐的文本embedding 。
时间亲和力精炼器为了动态分配文本embedding在不同帧中的注意力研究者们设计了时间亲和力精炼器TAR以优化空间交叉注意力的注意力图。在空间交叉注意力中噪声潜在特征作为查询文本embedding同时作为键和值。注意力图的计算方式为反映了文本与图像块之间的亲和力。随后TAR对注意力图应用时间自注意力获得精炼后的注意力图其表示形式如下 通过TAR在亲和力矩阵中建立了更合理的时间连接。它可以执行更动态的动作同时确保不会发生额外的视频失真。最后交叉注意力过程以精炼后的注意力图完成即。
时间特征增强器为了进一步提升特征的时间一致性通过时间特征增强器TFB处理。这能够建立更紧密的时间连接。具体来说TFB包括一个简单但有效的时间自注意力层以沿时间维度精炼噪声潜在特征表示为 实验
定量实验在定量实验中FancyVideo利用T2I基础模型生成作为第一帧的图像。在定性实验中为了美学目的和去除水印使用了一个外部模型来生成美丽的第一帧。
定性评估研究者们选择了AnimateDiff、DynamiCrafter以及两个商业化产品Pika和Gen2进行综合定性分析。值得注意的是在定量实验中FancyVideo的第一帧由SDXL生成以获得更具美学效果的结果并尽量减少水印的出现尽管后续帧可能仍会显示水印。如下图4所示本文的方法展现了卓越的性能在时间一致性和动作丰富性方面超过了先前的方法。相比之下AnimateDiff、DynamiCrafter和Gen2生成的视频动作较少。Pika在生成物体一致性和高质量视频帧方面存在困难。值得注意的是本文的方法能够准确理解文本提示中的动作指令例如“一只泰迪熊走路...美丽的日落”和“一只泰迪熊跑步...城市”的案例。 定量评估为了与最先进的方法进行全面比较采用了三个流行的基准测试例如EvalCrafter、UCF-101和MSR-VTT以及人工评估来评估视频生成的质量。其中EvalCrafter是目前相对全面的视频生成基准。UCF-101和MSR-VTT是先前方法中常用的基准。同时人工评估可以弥补现有文本条件视频生成评估系统中的不准确性。
EvalCrafter基准测试EvalCrafter从四个方面包括视频质量、文本视频对齐、动作质量和时间一致性定量评估文本到视频生成的质量。每个维度包含多个子类别的指标如下表1所示。正如社区讨论中提到的作者承认原始的综合指标计算方式是不适当的。为了更直观的比较通过考虑每个子指标的数值规模和正负属性引入了每个方面的综合指标。有关综合指标的详细信息可以在补充材料中找到。 具体来说比较了先前视频生成SOTA方法的性能例如Pika、Gen2、Show-1、ModelScope、DynamiCrafter和AnimateDiff并展示在上表1中。本文的方法在视频质量和文本视频对齐方面表现出色超过了现有方法。尽管Show-1在动作质量方面表现最佳81.56但其视频质量较差仅为85.08。这表明它无法生成具有合理动作的高质量视频。然而本文的方法在动作质量72.99方面排名第二在视频质量177.72方面表现最佳实现了质量与动作之间的权衡。以上结果表明FancyVideo的优越性及其生成时间一致和动作准确的视频的能力。
UCF-101 MSR-VTT根据先前的工作研究者们在UCF-101和MSR-VTT上评估了零-shot生成性能如下表2所示。使用Frechet视频距离FVD、Inception评分IS、Frechet Inception距离FID和CLIP相似度CLIPSIM作为评估指标并与一些当前的SOTA方法进行了比较。FancyVideo取得了竞争力的结果特别是在IS和CLIPSIM上表现优异分别为43.66和0.3076。此外先前的研究指出这些指标不能准确反映人类感知并受到训练和测试数据分布之间差距以及图像低级细节的影响。 人工评估受到EvalCrafter的启发引入了一种多候选排名协议涵盖四个方面视频质量、文本视频对齐、动作质量和时间一致性。在该协议中参与者对每个方面的多个候选模型的结果进行排名。每个候选模型根据其排名获得一个分数。例如如果有N个候选模型按视频质量排名第一个模型得到N−1分第二个模型得到N−2分以此类推最后一个模型得到0分。遵循这一协议从EvalCrafter验证集中选择了108个样本并收集了100名个体的评判。如下图5所示本文的方法在所有四个方面显著优于包括AnimateDiff、Pika和Gen2在内的文本到视频转换方法。FancyVideo展现了卓越的动作质量同时保持了优越的文本视频一致性。此外还对四种图像到视频的方法进行了类似的比较包括DynamiCrafter、Pika和Gen2如下图5所示。 消融研究研究者们进行了实验并展示了在EvalCrafter上的视觉比较以探讨CTGM中关键设计的效果。具体而言消融组件包括三个核心模块TII、TAR和TFB。如下表3所示TAR可以有效提升两个指标的性能表明时间精炼注意力图操作对视频生成是有益的。持续插入TFB和TII进一步提升了生成器的性能这归因于精炼的潜在特征和帧级个性化文本条件。同时定性分析包含在附录中。 结论
本文提出了一种新的视频生成方法名为FancyVideo它通过跨帧文本指导优化了常见的文本控制机制如空间交叉注意力。它通过精心设计的跨帧文本指导模块CTGM改进了交叉注意力实现了针对视频生成的时间特定文本条件指导。综合的定性和定量分析表明该方法能够生成更具动态性和一致性的视频。随着帧数的增加这一特点变得更加明显。本文的方法在EvalCrafter基准测试和人工评估中取得了最先进的结果。
参考文献
[1] FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
更多精彩内容请关注公众号AI生成未来