二级网站怎样做排名,编程免费自学网站,烟台网站建设联系企汇互联专业,怎么查看vps网站服务器时间每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领… 每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行 订阅https://rengongzhineng.io/ Google研究者们提出了VLOGGER VLOGGER这是一种基于单张人物图像进行文本和音频驱动的人物视频生成方法该方法基于最近生成式扩散模型的成功。该方法包含两部分1一个随机人体到3D运动的扩散模型以及2一种新颖的基于扩散的架构该架构通过时间和空间控制增强了文本到图像模型。这种方法能够生成高质量、可变长度的视频并且可以通过人脸和身体的高级表示轻松控制。与以往的工作不同该方法不需要针对每个人进行训练不依赖于人脸检测和裁剪能够生成完整图像而不仅仅是脸部或嘴唇并考虑了广泛的场景例如可见的躯干或多样的主体身份这对于正确合成交流的人类至关重要。
研究者们在三个不同的基准测试上评估了VLOGGER并展示了所提出的模型在图像质量、身份保持和时间一致性方面超越了其他最先进的方法。他们收集了一个新的、多样化的数据集MENTOR其规模比之前的数据集大一个数量级2200小时、800000个身份以及一个测试集120小时、4000个身份在此数据集上训练和消融了主要技术贡献。研究者们报告了VLOGGER在多个多样性指标上的性能显示出他们的架构选择有利于大规模训练一个公平和无偏见的模型。
VLOGGER如何工作
研究者们的目标是生成一个变长的真实感视频描绘目标人物的说话场景包括头部和手势。他们称之为VLOGGER的框架是一个基于随机扩散模型的两阶段管道用以模拟从语音到视频的一对多映射。第一个网络以音频波形为输入生成中间的身体动作控制信号这些控制信号负责目标视频长度内的注视、面部表情和姿势。
第二个网络是一个时间图像到图像转换模型扩展了大型图像扩散模型利用预测的身体控制信号生成相应的帧。为了将过程条件化到特定身份网络还需要一张人物的参考图像。