当前位置: 首页 > news >正文

图文网站源码成都网站设计策划免费

图文网站源码,成都网站设计策划免费,为中国移动做网站的公司叫什么,湖北企业建站系统平台基于动作合成视频、线免费使用不需要注册#xff0c;支持多种视频任务#xff1a;图像生成视频、文本生成视频、视频修改、视频风格化、用Transformer构建世界模型。 WorldDreamer无缝逐帧AI模型: 基于Transformer生成高质量电影级别视频的通用世界模型。从20亿数据中…基于动作合成视频、线免费使用不需要注册支持多种视频任务图像生成视频、文本生成视频、视频修改、视频风格化、用Transformer构建世界模型。 WorldDreamer无缝逐帧AI模型: 基于Transformer生成高质量电影级别视频的通用世界模型。从20亿数据中学习物理世界基于Transformer的通用世界模型成功挑战视频生成。 WorldDreamer是一个基于Transformer的通用世界模型能够完成自然场景和自动驾驶场景多种视频生成任务如文生视频、图生视频、视频编辑、动作序列生视频等。该模型从20亿数据中学习物理世界通过预测Token的方式建立通用场景世界模型将视频生成转换为序列预测任务从而对物理世界的变化和运动规律进行充分地学习。可视化实验证明WorldDreamer深刻理解了通用世界的动态变化规律。 WorldDreamer的原理是将视频生成转换为一个序列预测任务通过预测被掩码的视觉Token来生成视频。它采用Transformer架构借鉴大型语言模型的成功经验将世界模型建模框架转换为一个无监督的视觉Token预测问题。 WorldDreamer的特点是能够完成多种视频生成任务包括但不限于图像生成视频、文本生成视频、视频修改、视频风格化和基于动作合成视频等。它具有生成高质量电影级别视频的能力其生成的视频呈现出无缝的逐帧运动类似于真实电影中流畅的摄像机运动。而且这些视频严格遵循原始图像的约束确保帧构图的显著一致性。 WorldDreamer的用途包括但不限于 自动驾驶场景下的驾驶动作到视频的生成 从文本生成视频、从单一图像预测未来的帧 根据语言的输入可以更改被mask区域的视频内容、以及改变视频的风格等。 它可以完成自然场景和自动驾驶场景多种视频生成任务例如文生视频、图生视频、视频编辑、动作序列生视频等。 据团队介绍通过预测Token的方式来建立通用场景世界模型WorldDreamer是业界首个。 它把视频生成转换为一个序列预测任务可以对物理世界的变化和运动规律进行充分地学习。 可视化实验已经证明WorldDreamer已经深刻理解了通用世界的动态变化规律。 那么它都能完成哪些视频任务效果如何呢 支持多种视频任务 图像生成视频Image to Video WorldDreamer可以基于单一图像预测未来的帧。 只需首张图像输入WorldDreamer将剩余的视频帧视为被掩码的视觉Token并对这部分Token进行预测。 如下图所示WorldDreamer具有生成高质量电影级别视频的能力。 其生成的视频呈现出无缝的逐帧运动类似于真实电影中流畅的摄像机运动。 而且这些视频严格遵循原始图像的约束确保帧构图的显著一致性。 文本生成视频Text to Video WorldDreamer还可以基于文本进行视频生成。 仅仅给定语言文本输入此时WorldDreamer认为所有的视频帧都是被掩码的视觉Token并对这部分Token进行预测。 下图展示了WorldDreamer在各种风格范式下从文本生成视频的能力。 生成的视频与输入语言无缝契合其中用户输入的语言可以塑造视频内容、风格和相机运动。 视频修改Video Inpainting WorldDreamer进一步可以实现视频的inpainting任务。 具体来说给定一段视频用户可以指定mask区域然后根据语言的输入可以更改被mask区域的视频内容。 如下图所示WorldDreamer可以将水母更换为熊也可以将蜥蜴更换为猴子且更换后的视频高度符合用户的语言描述。 视频风格化Video Stylization 除此以外WorldDreamer可以实现视频的风格化。 如下图所示输入一个视频段其中某些像素被随机掩码WorldDreamer可以改变视频的风格例如根据输入语言创建秋季主题效果。 基于动作合成视频Action to Video WorldDreamer也可以实现在自动驾驶场景下的驾驶动作到视频的生成。 如下图所示给定相同的初始帧以及不同的驾驶策略如左转、右转WorldDreamer可以生成高度符合首帧约束以及驾驶策略的视频。 那么WorldDreamer又是怎样实现这些功能的呢 用Transformer构建世界模型 研究人员认为目前最先进的视频生成方法主要分为两类——基于Transformer的方法和基于扩散模型的方法。 利用Transformer进行Token预测可以高效学习到视频信号的动态信息并可以复用大语言模型社区的经验因此基于Transformer的方案是学习通用世界模型的一种有效途径。 而基于扩散模型的方法难以在单一模型内整合多种模态且难以拓展到更大参数因此很难学习到通用世界的变化和运动规律。 而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域缺乏全面捕捉通用世界变化和运动规律的能力。 所以研究团队提出了WorldDreamer来加强对通用世界的变化和运动规律的学习理解从而显著增强视频生成的能力。 借鉴大型语言模型的成功经验WorldDreamer采用Transformer架构将世界模型建模框架转换为一个无监督的视觉Token预测问题。 具体的模型结构如下图所示 WorldDreamer首先使用视觉Tokenizer将视觉信号图像和视频编码为离散的Token。 这些Token在经过掩蔽处理后输入给研究团队提出的Sptial Temporal Patchwuse TransformerSTPT模块。 同时文本和动作信号被分别编码为对应的特征向量以作为多模态特征一并输入给STPT。 STPT在内部对视觉、语言、动作等特征进行充分的交互学习并可以预测被掩码部分的视觉Token。 最终这些预测出的视觉Token可以用来完成各种各样的视频生成和视频编辑任务。 值得注意的是在训练WorldDreamer时研究团队还构建了Visual-Text-Action视觉-文本-动作数据的三元组训练时的损失函数仅涉及预测被掩蔽的视觉Token没有额外的监督信号。 而在团队提出的这个数据三元组中只有视觉信息是必须的也就是说即使在没有文本或动作数据的情况下依然可以进行WorldDreamer的训练。 这种模式不仅降低了数据收集的难度还使得WorldDreamer可以支持在没有已知或只有单一条件的情况下完成视频生成任务。 研究团队使用大量数据对WorldDreamer进行训练其中包括20亿经过清洗的图像数据、1000万段通用场景的视频、50万段高质量语言标注的视频、以及近千段自动驾驶场景视频。 团队对10亿级别的可学习参数进行了百万次迭代训练收敛后的WorldDreamer逐渐理解了物理世界的变化和运动规律并拥有了各种的视频生成和视频编辑能力。 论文地址https://arxiv.org/abs/2401.09985 项目主页https://world-dreamer.github.io/ 更多作品https://heehel.com/category/ai-works AIGC专区https://heehel.com/category/aigc
http://www.zqtcl.cn/news/485752/

相关文章:

  • 襄樊做网站做网站做网站
  • 百度做网站续费费用网站开发的可行性
  • 电子商务网站建设效益分析如何才能做好品牌网站建设策划
  • 能打开各种网站的浏览器app文章目录wordpress
  • 网站注册页面html中国建设招标网网站
  • 云南网站设计海外直购网站建设方案书范文
  • 网站视频小程序商城多少钱
  • 美耐皿 技术支持 东莞网站建设如何将网站指向404
  • 如何做网站的维护和推广wordpress首页在哪里修改
  • 网站建设公司在哪里宣传网站群系统建设的目的
  • 建立网站的教学书籍最新网站建设哪家公司好
  • 视频网站开发者工具科技网站新版网站上线
  • 网站设计简单网页百度提交网站
  • 建设企业网站网站崩溃西安百度网站快速排名
  • 前端 国外 网站请人做网站得多少钱
  • 微商如何做网站引流上海市有哪些公司
  • 服务类型网站开发需要哪些技术中国设计师网效果图
  • 电子商务网站建设技术有哪些方面做婚礼请柬的网站有哪些
  • 做暖暖欧美网站全国职工素质建设工程专题网站
  • 策划对于企业网站建设来说网站开发新加坡
  • 做仪表行业推广有哪些网站个人网站备案模板
  • 做微网站是订阅号还是服务号号网站建设叫什么软件
  • 美团初期是怎么建网站特效视频素材网站
  • 网站建设行业市场分析刚创业 建网站
  • 网站推广昔年下拉wordpress 首页添加链接地址
  • 网站年费推荐专业做网站公司
  • 邵东微网站建设设计网页图片
  • 沈阳高端做网站建设应用软件商店
  • 05网站首页设计说明
  • 给企业做网站运营手机做简单的网站