当前位置: 首页 > news >正文

大型门户网站建设一般多少钱上海工程信息网

大型门户网站建设一般多少钱,上海工程信息网,文档共享网站建设,标志设计网站推荐文章目录 1. 视频生成模型#xff0c;可以视为一个世界模拟器2. 技术内容2.1 将可视数据转换成patches2.2 视频压缩网络2.3 Spacetime Latent Patches2.4 Scaling transformers 用于视频生成2.5 可变的持续时间#xff0c;分辨率#xff0c;宽高比2.6 抽样的灵活性2.7 改进框… 文章目录 1. 视频生成模型可以视为一个世界模拟器2. 技术内容2.1 将可视数据转换成patches2.2 视频压缩网络2.3 Spacetime Latent Patches2.4 Scaling transformers 用于视频生成2.5 可变的持续时间分辨率宽高比2.6 抽样的灵活性2.7 改进框架和构图2.8 为视频生成字幕作为训练集 3. 应用3.1 动画DALL·E图像 输入图片输出视频3.2 扩展生成视频3.3 Video-to-video编辑 (改变视频风格或场景)3.4 拼接视频3.5 图像生成功能 4. 新兴的模拟能力4.1 3d一致性4.2 长程相干性和对象持久性4.3 与世界互动4.4 模拟数字世界 5. 讨论6. 参考文献第三方的猜想与讨论 欢迎关注公众号后续将继续更新 1. 视频生成模型可以视为一个世界模拟器 我们在视频数据上探索生成模型的大规模训练。具体来说我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。 我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。 本技术报告侧重于 我们将所有类型的视觉数据转换为统一表示的方法从而能够大规模训练生成模型对Sora的能力和局限性进行定性评估。 模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上在较短的视频上或者在固定大小的视频上。 Sora是一个通用的视觉数据模型它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像甚至可以生成一分钟的高清视频。 2. 技术内容 2.1 将可视数据转换成patches 我们从大型语言模型中获得灵感这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中我们考虑了视觉数据的生成模型如何继承这些好处。 llm有文本令牌而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现对于在不同类型的视频和图像上训练生成模型patch是一种高度可扩展的有效表示。 在高层次上我们首先将视频压缩到一个较低维度的潜在空间[19]然后将其分解为spacetime patches从而将视频转化为patches。 2.2 视频压缩网络 我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型该模型将生成的潜在映射回像素空间。 2.3 Spacetime Latent Patches 给定一个压缩的输入视频我们提取一个spacetime patches序列作为transformer tokens。这个方案也适用于图像因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。 在推理时我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。 2.4 Scaling transformers 用于视频生成 Sora为扩散模型[21,22,23,24,25]给定输入的噪声块(以及文本提示之类的条件信息)它被训练来预测原始的“干净”块。重要的是Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29] 在这项工作中我们发现diffusion transformers也可以有效地缩放为视频模型。下面我们展示了随着训练的进行具有固定种子和输入的视频样本的比较。随着训练计算量的增加样本质量显著提高。 2.5 可变的持续时间分辨率宽高比 过去的图像和视频生成方法通常是调整大小裁剪或修剪视频到标准尺寸 例如4秒的视频在256x256分辨率。但是我们发现在原始大小的数据上进行训练提供了几个好处。 2.6 抽样的灵活性 Sora可以采样宽屏1920x1080p视频垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。 2.7 改进框架和构图 我们从经验上发现在视频的原始长宽比上进行训练可以改善构图和框架。 我们将Sora与我们模型的一个版本进行比较该版本将所有训练视频裁剪为方形这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下来自Sora(右)的视频有改进的帧。 左图 右图 2.8 为视频生成字幕作为训练集 训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。 我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model)然后使用它为我们训练集中的所有视频生成文本字幕。我们发现对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似我们还利用GPT将简短的用户提示转换为更长的详细字幕并将其发送到视频模型。 3. 应用 上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频动画静态图像向前或向后扩展视频等。 3.1 动画DALL·E图像 输入图片输出视频 Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。 展示略3.2 扩展生成视频 Sora还能够在时间上向前或向后扩展视频。下面是四个视频它们都是从一个生成的视频片段开始向后扩展的。因此这四个视频的开始都不同但四个视频的结局都是一样的。 我们可以使用这种方法来向前和向后扩展视频以产生无缝的无限循环。 3.3 Video-to-video编辑 (改变视频风格或场景) 扩散模型已经启用了大量的方法来根据文本提示 编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。 3.4 拼接视频 我们还可以使用Sora在两个输入视频之间逐渐插入在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中中间的视频在左边和右边对应的视频之间插入。 3.5 图像生成功能 Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像最高可达2048 × 2048分辨率。 4. 新兴的模拟能力 我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。 4.1 3d一致性 Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转人物和场景元素在三维空间中始终如一地移动。 4.2 长程相干性和对象持久性 视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如我们的模型可以保存人物、动物和物体即使它们被遮挡或离开了框架。同样它可以在单个样本中生成同一角色的多个镜头在整个视频中保持其外观。 4.3 与世界互动 Sora有时可以用简单的方式模拟影响世界状态的行为。例如画家可以在画布上留下新的笔触随着时间的推移或者一个人吃汉堡时留下咬痕。 4.4 模拟数字世界 Sora还能够模拟人工过程比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。 这些功能表明视频模型的持续缩放continued scaling of video models是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。 5. 讨论 作为一个模拟器Sora目前显示出许多局限性。例如它不能准确地模拟许多基本相互作用的物理过程比如玻璃破碎。其他的交互比如吃东西并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式例如在长时间样本中发展的不一致性或对象的自发出现。 我们相信Sora今天所拥有的能力表明视频模型的持续缩放是一条很有前途的道路可以开发出物理和数字世界的模拟器以及生活在其中的物体、动物和人。 6. 参考文献 [13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017). [14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901. [15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020). [16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021. [17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. [18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023). [19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. [21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015. [22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851. [23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021. [24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021. [25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577. [27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020. [28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021. [29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5. [30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8 [31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3. [32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021). 第三方的猜想与讨论 施工中
http://www.zqtcl.cn/news/221228/

相关文章:

  • 镇江建工建设集团网站泛微e8做网站门户
  • 适合友情链接的网站全球软件公司排行榜
  • 沈阳网站制作 600元网站飘动广告代码
  • 最先进的无锡网站建设wordpress调用 别的网站
  • 河南网站备案地址静安青岛网站建设
  • 烟台网站建设推荐企汇互联见效付款查看网站被百度收录
  • 做标签网站360街景地图怎么看
  • 深圳网站建设领先天津建设企业网站
  • 网站建设犭金手指C排名15温州 建网站的公司
  • 邢台建设银行官方网站公众号开发者密码是什么意思
  • 网站录入信息 前台查询功能怎么做营销网站主题有哪些内容
  • 网站SEO的评价触屏音乐网站源码
  • 网站开发u盘128够吗网站建设是固定资产嘛
  • 网站域名备案信息wordpress搜索文章内容
  • 出口退税在哪个网站做怎么在一起做网站上拿货
  • 网站友链查询传到网站根目录
  • 网站服务器端口设置北京专业网络直播制作
  • 可以免费做演播的听书网站南京企业自助建站
  • 软件下载类型网站怎么做长沙官网优化技术
  • 药品网站订单源码外贸网站建设服务器
  • 深圳网站制作07551免费开发网站
  • 如何直接用jsp做网站不写servletwordpress模板 单栏
  • 长沙网站建设哪个公司好设计公司网站 唐山
  • 原创小说手机网站制作需要多少钱郴州seo外包
  • 深圳市大鹏建设局网站网站关键词没排名怎么办
  • 水果商城网站制作多少钱c#如何做公司网站
  • 国内做进口的电商网站网站建设的经验做法
  • 蚂蚁搬家公司官方网站免费网站软件制作
  • 搭建网站要用到的工具外链代发免费
  • 肥城网站建设流程oem中国代加工网