中山移动网站建设公司,河南平台网站建设价位,公司网站如何制作,海尔网站的建设目标扩散模型与强化学习(0)#xff1a;专栏汇总与导航 前言#xff1a;最近强化学习在Diffusion Models得到了越来越多广泛的应用#xff0c;本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the … 扩散模型与强化学习(0)专栏汇总与导航 前言最近强化学习在Diffusion Models得到了越来越多广泛的应用本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。 目录
反馈数据收集
奖励模型
基模型反馈学习
超分RLHF框架 反馈数据收集
我们从训练数据集和在线用户中收集提示并对提示进行数据平衡和信息过滤以丢弃重复和模糊的提示。我们收集了用于人类偏好标注的高质量视频数据对包括我们模型不同阶段生成的合成视频。实验结果表明多源视觉材料的融入可以进一步提升RM模型的领域容量扩大RM的偏好上界增强泛化能力。我们在标注过程中采用了多维标注的方法即在特定的标注维度下选择最好和最差的视频同时保证最好的视频在其他维度上不劣于最差的视频。
奖励模型
为了全面提升模型性能我们设计了一个复杂的奖励制度包括三个专门的奖励模型基础奖励模型运动奖励模型和美学奖励模型。这些维度特定的奖励模型加上视频定制的RLHF优化策略可以在多个方面对模型能力进行综合改进如图7所示。基础奖励模型侧重于增强基础模型能力如图像-文本对齐和结构稳定性。我们采用视觉-语言模型作为这个奖励模型的架构。运动奖励模型有助于减轻视频伪影同时增强运动幅度和生动性。考虑到视频美学主要来源于关键帧受Seedream的启发我们设计了基于图像空间输入的美学奖励模型并将数据源修改为使用视频中的关键帧。
基模型反馈学习
奖励反馈学习已被广泛应用于现在的扩散模型中。在Seedance 1.0中我们在训练过程中模拟视频推理管道在奖励模型( Reward ModelRM )充分评估视频质量的情况下直接预测x0 (生成干净的视频)。该优化策略直接最大化来自多个RM的复合奖励。针对DPO / PPO / GRPO的对比实验表明我们的报酬最大化方法是最有效的方法综合提高了文本-视频对齐、运动质量和美观性。此外我们在扩散模型和RM之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限并且更加稳定和可控
超分RLHF框架 如图8所示我们还将RLHF应用在我们的扩散refiner上它可以看作是一个基于扩散的条件生成模型。在训练过程中低分辨率的VAE隐空间表示作为超分辨率模型的条件输入而生成的高分辨率视频则由多个奖励模型进行评估。我们直接最大化这些奖励信号的线性组合。值得注意的是我们的方法将RLHF直接应用于加速refiner模型在保持计算效率的同时有效地提高了低NFE场景下的运动质量和视觉保真度。