怎样做直播网站,网站建设安全问题,最好用的建站系统,网页美工设计需求分析一、一觉醒来#xff0c;AI 视频已变天
早上一觉醒来#xff0c;群里和朋友圈又被刷屏了。
今年开年 AI 界最大的震撼事件#xff1a;OpenAI 发布了他们的文生视频大模型 Sora。
OpenAI 文生视频大模型 Sora 的横空出世#xff0c;预示着 AI 视频要变天了#xff0c;视…一、一觉醒来AI 视频已变天
早上一觉醒来群里和朋友圈又被刷屏了。
今年开年 AI 界最大的震撼事件OpenAI 发布了他们的文生视频大模型 Sora。
OpenAI 文生视频大模型 Sora 的横空出世预示着 AI 视频要变天了视频创作领域要重新洗牌
啥都不说先来感受一番 OpenAI Sora 生成视频 再来看看其他由 Sora 生成的视频 OpenAI Sora 示例视频 big-sur 你还能辨得出真假吗 OpenAI Sora 示例视频 Kangroo 更多视频效果大家可以去 OpenAI 的官网浏览。
传送门https://openai.com/sora
看了 OpenAI 官网 Sora 做出的视频效果说 Sora 目前是 「AI 视频领域的地表最强」应该没有人反对吧。
二、OpenAI Sora 有哪些技术突破
一视频时长的突破
之前更新了一个 AI 视频工具的系列专栏有的小伙伴私信找我说为什么推荐的这些 AI 视频工具都只能生成几秒的视频呀。
确实在 OpenAI 的 Sora 横空出世之前AI 视频工具还没有突破视频时长的限制。基本都只能生成几秒的视频。
如果想通过 AI 视频工具生成视频来做自媒体或其他用途需要多次生成再用一些剪辑、特效工具加工后才能出片。
而 Sora 的出现突破了 AI 视频领域的这一限制可以直接生成长达一分钟的视频。
提到时长瞬间觉得 Pika、Runway 等 AI 视频工具不香了。
二世界模型
除了视频时长有突破外Sora 模型不仅了解用户在提示词中要求的内容还了解这些东西「在物理世界中的存在方式」。
之前听过卡兹克大佬一个关于 AI 视频的分享在分享中也提到了「物理规律」这个概念。
比如一拳抡到一个怪物的头上它是有一个物体的交互的整个视频的呈现都是要符合物理世界的规律。
但在 Sora 之前的 AI 视频工具中这块并没有突破。
而这块如果没有突破AI 生成的视频是很难应用到影视或者工业这块的。
但 Sora 的出现让我们看到了可能性。
比如官网上的这个示例视频枕头和被子的凹陷都呈现得非常真实。 OpenAI Sora 官方示例视频 cat-on-bed Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.
提示词一只猫叫醒熟睡的主人要求吃早餐。主人试图无视猫但猫尝试了新的策略最后主人从枕头下掏出一个秘密的零食藏匿处让猫多呆一会儿。
三单视频多角度镜头
另外Sora 还可以在单个生成的视频中创建多个角度的镜头且「一致性」和「稳定性」强得惊人。
这在之前的 AI 视频工具中是远远达不到的。
可以看官网的视频示例。
三、OpenAI Sora 目前有哪些缺陷
虽然 OpenAI 的 Sora 已经在技术上有了很大突破但依然存在一些缺陷。
比如它可能难以准确地模拟复杂场景的物理现象也可能无法理解因果关系的具体实例。
官方也举了一个例子。
比如一个人可能咬了一口饼干但是之后饼干上可能没有咬痕。
除此之外该模型还可能混淆提示的空间细节。
例如左右混淆并且可能难以精确描述随时间推移发生的事件比如遵循特定的相机轨迹。
四、OpenAI Sora 技术实现 Sora 是一种扩散模型它从看起来像静态噪声的视频开始生成视频然后通过多个步骤消除噪声来逐渐转换视频。
Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧解决了一个具有挑战性的问题即确保一个主题即使暂时离开视野也能保持不变。
与 GPT 模型类似Sora 使用 transformer 架构释放出卓越的扩展性能。 将视频和图像表示为称为补丁的较小数据单元的集合每个补丁都类似于 GPT 中的一个 token。通过统一我们表示数据的方式我们可以在比以前更广泛的视觉数据上训练扩散变压器跨越不同的持续时间、分辨率和纵横比。 Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3涉及为视觉训练数据生成高度描述性的标题。因此该模型能够更忠实地遵循生成视频中用户的文本说明。
除了能够仅根据文本说明生成视频外Sora 模型还能够获取现有的静止图像并从中生成视频从而准确无误地对图像内容进行动画处理并注重小细节。
该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧。
更多技术细节请参考
https://openai.com/research/video-generation-models-as-world-simulators
一觉醒来Sora 已颠覆 AI 视频领域视频、影视、广告等行业将重新洗牌AGI 还远吗