东莞市官网网站建设价格,梅州建设项目,dw新建站点,网站页面多少推荐#xff1a;使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景 介绍
基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由Imagen#xff0c;DallE和MidJourney等模型开创#xff0c;展示了文本条件图像生成的卓越功能。有关这些模型内部工作的… 推荐使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景 介绍
基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由ImagenDallE和MidJourney等模型开创展示了文本条件图像生成的卓越功能。有关这些模型内部工作的介绍您可以阅读本文。
然而Text-2-Video模型的开发提出了更艰巨的挑战。目标是在每个生成的帧之间实现连贯性和一致性并保持从视频开始到结束的生成上下文。
然而基于扩散的模型的最新进展也为文本2视频任务提供了广阔的前景。现在大多数文本 2-视频模型在预先训练的文本 2-图像模型上采用微调技术集成动态图像运动模块并利用各种文本 2-视频数据集如 WebVid 或 HowTo100M。
在本文中我们的方法涉及利用HuggingFace提供的微调模型该模型被证明有助于生成视频。
实现
先决条件
我们使用HuggingFace提供的Diffusers库以及一个名为Accelerate的实用程序库它允许PyTorch代码在并行线程中运行。这加快了我们的生成过程。
首先我们必须安装依赖项并为代码导入相关模块。
pip install diffusers transformers accelerate torch
然后从每个库中导入相关模块。
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
创建管道
我们将ModelScope提供的Text-2-Video模型加载到HuggingFace中在扩散管道中。该模型具有 1 亿个参数基于 UNet7D 架构该架构通过迭代去噪过程从纯噪声生成视频。它分为三部分。模型首先从简单的英语提示符中执行文本特征提取。然后将文本特征编码到视频潜在空间并进行去噪。最后将视频潜在空间解码回视觉空间并生成短视频。
pipe DiffusionPipeline.from_pretrained(
damo-vilab/text-to-video-ms-1.7b, torch_dtypetorch.float16, variantfp16)pipe.scheduler DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)pipe.enable_model_cpu_offload()
此外我们使用 16 位浮点精度来降低 GPU 利用率。此外还启用了 CPU 卸载可在运行时从 GPU 中删除不必要的部分。
生成视频
prompt Spiderman is surfing
video_frames pipe(prompt, num_inference_steps25).frames
video_path export_to_video(video_frames)
然后我们将提示传递给视频生成管道该管道提供一系列生成的帧。我们使用 25 个推理步骤以便模型将执行 25 次去噪迭代。更多的推理步骤可以提高视频质量但需要更多的计算资源和时间。
然后使用扩散器的实用程序功能组合单独的图像帧并将视频保存在磁盘上。
然后我们将提示传递给视频生成管道该管道提供一系列生成的帧。然后使用扩散器的实用程序功能组合单独的图像帧并将视频保存在磁盘上。
结论
足够简单我们得到了蜘蛛侠冲浪的视频。虽然这是一个质量不高的短视频但它仍然象征着这个过程的前景它很快就会达到与Image-2-Text模型类似的结果。尽管如此测试你的创造力和使用模型仍然足够好。
原文链接如何使用LLM实现文本自动生成视频 (mvrlink.com)