网站美工做图推荐,wordpress的别名获得页面的别名,做挂网站,wordpress慢 排查概述
视频生成模型作为世界模拟器
我们探索视频数据生成模型的大规模训练。具体来说#xff0c;我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用transformer架构#xff0c;在视频和图像潜在代码的时空补丁上运行。我们最大的模型Sor…概述
视频生成模型作为世界模拟器
我们探索视频数据生成模型的大规模训练。具体来说我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用transformer架构在视频和图像潜在代码的时空补丁上运行。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明缩放视频生成模型是构建物理世界通用模拟器的一条有希望的道路。
本技术报告侧重于1我们将所有类型的视觉数据转换为统一表示的方法以便对生成模型进行大规模训练以及2对Sora的能力和局限性的定性评估。本报告不包括模型和实施细节。
之前的许多工作都使用各种方法研究了视频数据的生成建模包括循环网络、生成对抗网络、自回归变压和扩散模型。这些作品通常侧重于狭义的视觉数据类别、较短的视频或固定大小的视频。Sora是视觉数据的通用模型——它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像长达一整分钟的高清视频。
1、将视觉数据转化为补丁
我们从大型语言模型中汲取灵感这些模型通过互联网规模的数据培训获得通才能力。LLM范式的成功部分得益于使用令牌这些令牌优雅地统一了文本的多种模式——代码、数学和各种自然语言。在这项工作中我们考虑了视觉数据的生成模型如何继承这些好处。LLM有文本令牌而Sora有视觉补丁。补丁以前已被证明是视觉数据模型的有效表示。我们发现补丁是一种高度可扩展和有效的表示用于训练不同类型的视频和图像的生成模型。 在高水平上我们通过首先将视频压缩到低维的潜在空间然后将表示分解为时空补丁将视频变成补丁 。
2、视频压缩网络
我们训练一个减少视觉数据维度的网络。这个网络将原始视频作为输入并输出一个在时间和空间上压缩的潜在表示。Sora接受训练并随后在这个压缩的潜在空间中生成视频。我们还训练了一个相应的解码器模型将生成的潜能映射回像素空间。 3、时空潜伏补丁
给定一个压缩的输入视频我们提取一系列作为变压器令牌的时空补丁。此方案也适用于图像因为图像只是单帧的视频。我们基于补丁的表示使Sora能够对可变分辨率、持续时间和宽高比的视频和图像进行训练。在推理时我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。
4、用于视频生成的缩放transformers
Sora是一个扩散模型给定输入嘈杂的补丁以及文本提示等调理信息它经过训练来预测原始的“干净”补丁。重要的是Sora是一个Diffusion transformer。transformer在各个领域都表现出了显著的缩放特性包括语言建模、计算机视觉和图像生成。 在这项工作中我们发现扩散变压器作为视频模型也能有效扩展。下面随着培训的进行我们展示了视频样本与固定种子和输入的比较。随着训练计算的提高样本质量显著提高。
5、可变持续时间、分辨率、宽高比
过去的图像和视频生成方法通常将视频大小、裁剪或修剪为标准尺寸——例如256x256分辨率的4秒视频。我们发现以原生规模对数据进行训练会带来一些好处。
采样灵活性
Sora可以采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的一切。这允许Sora直接以原生宽高比为不同设备创建内容。它还允许我们在以全分辨率生成之前以较低的尺寸快速制作内容原型——所有这些都使用相同的模型。
改进的框架和构图
我们实证地发现以原生宽高比进行视频训练可以改善构图和构图。我们将Sora与我们的模型版本进行比较该模型将所有训练视频裁剪为正方形这是训练生成模型时的常见做法。在方形作物上训练的模型左有时会生成视频其中主体仅部分出现在视野中。相比之下Sora右的视频改进了框架。 6、语言理解
培训文本到视频生成系统需要大量带有相应文本字幕的视频。我们将DALL·E 330中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型然后用它来为我们训练集中的所有视频制作文本字幕。我们发现关于高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。
与DALL·E 3类似我们还利用GPT将简短的用户提示转换为发送到视频模型的更长的详细字幕。这使得Sora能够生成准确遵循用户提示的高质量视频。
7、提示图像和视频
上面和我们登录页面中的所有结果都显示了文本到视频样本。但Sora也可以通过其他输入来提示例如预先存在的图像或视频。此功能使Sora能够执行广泛的图像和视频编辑任务——创建完美循环视频动画静态图像在时间上向前或向后扩展视频等。
动画DALL·E图像
Sora能够生成视频提供图像和提示作为输入。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。
扩展生成的视频
Sora还能够向前或向后扩展视频。以下是四个视频这些视频都从生成的视频片段开始向后扩展。因此四个视频中的每一个的开始都与其他视频不同但所有四个视频都导致相同的结局
我们可以使用这种方法向前和向后扩展视频以生成无缝的无限循环。
视频到视频编辑
扩散模型使从文本提示编辑图像和视频的方法成为可能。下面我们将这些方法之一SDEdit应用于Sora。这项技术使Sora能够改变零拍摄输入视频的风格和环境。
连接视频
我们还可以使用Sora在两个输入视频之间逐步插值在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中中间的视频在左侧和右侧的相应视频之间插值。
8、图像生成能力
Sora也能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声补丁来做到这一点。该模型可以生成可变尺寸的图像——分辨率高达2048x2048。 秋天一个女人的特写肖像照极端细节浅景深 充满活力的珊瑚礁充斥着五颜六色的鱼类和海洋生物 9、新兴的模拟能力
我们发现视频模型在大规模训练时表现出许多有趣的紧急能力。这些能力使Sora能够从物理世界中模拟人、动物和环境的某些方面。这些属性在3D、物体等没有任何明确的感应偏导的情况下出现——它们纯粹是规模现象。
3D一致性。Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转人物和场景元素在三维空间中始终如一地移动
长期连贯性和对象持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现Sora通常尽管并非总是如此能够有效地模拟短期和长期依赖关系。例如我们的模型可以持续存在人、动物和物体即使它们被遮挡或离开框架。同样它可以在单个样本中生成同一角色的多个镜头在整个视频中保持其外观。
与世界互动。Sora有时可以以简单的方式模拟影响世界状态的行为。例如画家可以沿着画布留下新的笔触这些笔触会随着时间的推移而持续下去或者一个男人可以吃一个汉堡并留下咬痕。
模拟数字世界。Sora还能够模拟人工过程——一个例子是电子游戏。Sora可以同时用基本策略控制《我的世界》中的玩家同时以高保真度渲染世界及其动态。通过提示Sora的标题提及“Minecraft”可以激发这些功能。
这些能力表明视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。
讨论
Sora目前作为模拟器表现出许多局限性。例如它没有准确模拟许多基本相互作用的物理学比如玻璃破碎。其他相互作用如吃食物并不总是能产生物体状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式例如在长时间样本中形成的不一致性或物体的自发出现。
我们相信Sora今天的能力表明视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有希望的道路。
参考文献 Srivastava、Nitish、Elman Mansimov和Ruslan Salakhudinov。使用lstms无监督地学习视频表示。机器学习国际会议。PMLR2015年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-1-0 ChiappaSilvia等人。循环环境模拟器。arXiv预印本arXiv:1704.022542017。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-2-0 Ha、David和Jürgen Schmidhuber。世界模型。arXiv预印本arXiv:1803.101222018。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-3-0 Vondrick、Carl、Hamed Pirsiavash和Antonio Torralba。生成具有场景动态的视频。神经信息处理系统的进展292016。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-4-0 TulyakovSergey等人。Mocogan为视频生成分解运动和内容。IEEE计算机视觉和模式识别会议记录。2018年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-5-0 Clark、Aidan、Jeff Donahue和Karen Simonyan。“复杂数据集上的对抗性视频生成。”arXiv预印本arXiv:1907.065712019。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-6-0 布鲁克斯蒂姆等人。生成动态场景的长视频。神经信息处理系统的进展35202231769-31781。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-7-0 YanWilson等人。Videogpt使用vq-vae和变压器生成视频。arXiv预印本arXiv:2104.101572021。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-8-0 WuChenfei等人。Nüwa神经视觉世界创造的视觉合成预训练。欧洲计算机视觉会议。ChamSpringer Nature Switzerland2022年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-9-0 HoJonathan等人。图像视频带有扩散模型的高清视频生成。arXiv预印本arXiv:2210.023032022。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-10-0 布拉特曼安德烈亚斯等人。调整您的潜在信号高分辨率视频合成与潜在扩散模型保持一致。IEEE/CVF计算机视觉和模式识别会议记录。2023.↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-11-0 Gupta, Agrim, et al.带有扩散模型的逼真视频生成。arXiv预印本arXiv:2312.066622023。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-12-0 VaswaniAshish等。注意力就是你所需要的。神经信息处理系统的进展302017。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-13-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-13-1 布朗、汤姆等人。语言模型是很少的学习者。神经信息处理系统的进展3320201877-1901。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-14-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-14-1 DosovitskiyAlexey等人。一张图像价值16x16字用于大规模图像识别的变形金刚。arXiv预印本arXiv:2010.119292020。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-15-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-15-1 ArnabAnurag等。Vivit一个视频视觉变压器。IEEE/CVF计算机视觉国际会议记录。2021年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-16-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-16-1 他凯明等人。蒙面自动编码器是可扩展的视觉学习者。IEEE/CVF计算机视觉和模式识别会议记录。2022.↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-17-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-17-1 DehghaniMostafa等人。Patch nPackNaViT适用于任何宽高比和分辨率的视觉变压器。arXiv预印本arXiv:2307.063042023。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-18-0↩︎ RombachRobin等人。带有潜在扩散模型的高分辨率图像合成。IEEE/CVF计算机视觉和模式识别会议记录。2022.↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-19-0 Kingma、Diederik P.和Max Welling。自动编码变体贝叶斯。arXiv预印本arXiv1312.61142013。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-20-0 Sohl-DicksteinJascha等人。使用非平衡热力学进行深度无监督学习。机器学习国际会议。PMLR2015年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-21-0 Ho、Jonathan、Ajay Jain和Pieter Abbeel。去诺化扩散概率模型。神经信息处理系统的进展3320206840-6851。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-22-0 Nichol、Alexander Quinn和Prafulla Dhariwal。改进了去消化扩散概率模型。机器学习国际会议。PMLR2021年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-23-0 Dhariwal、Prafulla和Alexander Quinn Nichol。扩散模型在图像合成上击败了GAN。神经信息处理系统的进展。2021年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-24-0 KarrasTero等人。阐明基于扩散的生成模型的设计空间。神经信息处理系统的进展35202226565-26577。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-25-0 Peebles、William和Saining Xie。带有变压器的可扩展扩散模型。IEEE/CVF计算机视觉国际会议记录。2023.↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-26-0 Chen、Mark等人。从像素生成预训练。机器学习国际会议。PMLR2020年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-27-0 RameshAditya等人。零镜头文本到图像生成。机器学习国际会议。PMLR2021年。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-28-0 YuJiahui等人。缩放内容丰富的文本到图像生成的自动回归模型。arXiv预印本arXiv2206.10789 2.320225。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-29-0 BetkerJames等人。用更好的字幕改善图像生成。计算机科学。https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-30-0↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-30-1 RameshAditya等人。带有剪辑潜在物的分层文本条件图像生成。arXiv预印本arXiv2204.06125 1.220223。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-31-0 MengChenlin等人。Sdedit使用随机微分方程进行引导图像合成和编辑。arXiv预印本arXiv:2108.010732021。↩︎https://openai.com/research/video-generation-models-as-world-simulators#ref-32-0