用asp.net做简易网站,设计说明书,易语言对做网站有什么帮助,seo网站页面诊断2022年末#xff0c;OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事件#xff0c;宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习#xff0c;还是工作生产、医疗健康等领域#xff0c;人工智能正以前所未有的速度渗透到我们生活的方方面面。 …2022年末OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事件宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习还是工作生产、医疗健康等领域人工智能正以前所未有的速度渗透到我们生活的方方面面。
2月16日凌晨OpenAI再次扔出一枚深水炸弹发布了首个文生视频模型Sora。据介绍Sora可以直接输出长达60秒的视频并且包含高度细致的背景、复杂的多角度镜头以及富有情感的多个角色。
这意味着继文本、图像之后OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示Sora是能够理解和模拟现实世界的模型的基础这一能力将是实现AGI通用人工智能的重要里程碑。 对于OpenAI视频生成模型的出现业内其实早有预期但仍有人评价称“比想象中来得更快”亦有人振奋地表示“我们真的看到新工业革命来临”。
2月16日业内分析人士对《每日经济新闻》记者表示Sora无疑是人工智能领域的一次重大突破该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。
目前官网上已经更新了48个视频demo在这些demo中Sora不仅能准确呈现细节还能理解物体在物理世界中的存在并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。 人们一直期待GPT-5但Sora带来的轰动不亚于一次GPT-5的发布。
作为OpenAI 首推的文本转视频模型Sora能够根据文本指令或静态图像生成长达 1分钟的视频其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比妥妥地铁赢了。并且从官方发布的演示来看无论从视频流畅度还是细节表现能力上Sora的效果都相当惊艳。
例如一个Prompt大语言模型中的提示词的描述是在东京街头一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。 在Sora生成的视频里女士身着黑色皮衣、红色裙子在霓虹街头行走不仅主体连贯稳定还有多镜头包括从大街景慢慢切入到对女士的脸部表情的特写以及潮湿的街道地面反射霓虹灯的光影效果。
对于五官和皮肤的刻画十分真实特别是痘印和法令纹细节让人惊叹。 AI想象中的龙年春节红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望还有不少人掏出手机边跟边拍海量人物角色各有各的行为。 竖屏超近景视角下这只蜥蜴细节拉满 Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解能准确解读提示并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头使角色和视觉风格保持准确一致。
比如一大群纸飞机在树林中飞过Sora知道碰撞后会发生什么并表现其中的光影变化。
一群纸飞机在茂密的丛林中翩翩起舞在树林中穿梭就像候鸟一样。 对于Sora当前存在的弱点OpenAI也不避讳指出它可能难以准确模拟复杂场景的物理原理并且可能无法理解因果关系。 例如它在准确模拟复杂场景的物理现象方面存在困难也可能不理解特定的因果关系。比方说“一个人咬一口饼干后饼干上可能并没有咬痕。”
模型也可能混淆提示的空间细节像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难比如遵循特定的摄像机轨迹”。
Sora也使用了DALL·E 3的recaptioning技术该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。
它能够一次性生成整个视频或是扩展已生成的视频使其变长。通过让模型一次性预见多帧解决了即使主体暂时离开视线也能保持不变的挑战性问题。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”狼的数量会变化有的狼崽凭空出现或消失。 该模型还可能混淆提示词的空间细节例如混淆左右并且可能难以精确描述随着时间推移发生的事件例如遵循特定的相机轨迹。
如根据提示词“篮球穿过篮筐然后爆炸”生成的视频中篮球撞到篮筐边缘竟然没有反弹而是直接穿过。 OpenAI表示他们正在教AI理解和模拟运动中的物理世界目标是训练模型来帮助人们解决需要现实世界交互的问题。
同时OpenAI解释了Sora的工作原理Sora是一个扩散模型它从类似于静态噪声的视频开始通过多个步骤逐渐去除噪声视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构有极强的扩展性。
如今Sora正面向部分成员开放以评估关键领域的潜在危害或风险。同时OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入期望获得宝贵反馈以推动模型进步更好地助力创意工作者。
Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频玩起了自己的“What”梗 他还邀请大家踊跃提出想用Sora制作视频的提示词团队马上为大家生成瞬间8千多条回复。
网友脑洞大开要看海洋生物的自行车公开赛。
关于安全性OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具识别视频是否由Sora生成。对于违反使用政策的文本提示例如暴力、仇恨和侵犯他人知识产权等内容将拒绝显示给用户。
除此以外为DALL·E 3产品构建的现有安全方法也同样适用于Sora。
“尽管进行了广泛的研究和测试我们仍无法预测人们将如何利用我们的技术也无法预见人们如何滥用它。这就是为什么我们相信从真实世界的用例中学习是随时间构建越来越安全的AI系统的关键组成部分。”
OpenAI对 Sora信心满满认为这为模型理解和模拟真实世界奠定了基础是“实现AGI的重要里程碑”。
网友们也第n1次纷纷哀悼起相关赛道的公司们
“OpenAI就是不能停止杀死创业公司。”
“天哪现在起我们要弄清什么是真的什么是假的。”
“我的工作没了。”
“整个影像素材行业被血洗安息吧。” 能杀死GPT-4的世界模型这不就是吗
OpenAI一如既往没有给出很详细的技术说明但一些只言片语已经足够让你浮想联翩。
其中最吸引我们注意的第一个点是对数据的处理。
Sora是一个扩散模型diffusion model采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面OpenAI表示他们在处理图像和视频数据时把对它们进行分割后得到的最小单元称为小块patches也就是对应LLM里的基本单元tokens。
这是一个很重要的技术细节。把它作为模型处理的基本单元使得深度学习算法能够更有效地处理各种视觉数据涵盖不同的持续时间、分辨率和宽高比。
从最终的震撼效果看你很难不得出这样一个结论对语言的理解能力是可以迁移到对更多形态的数据的理解方法上去的。
此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力哪怕是个图像为输出的模型语言能力提升也是至关重要的。而今天的视频模型同样如此。
至于它是如何做到的有不少行业内的专家给出了相同的猜测它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5简单粗暴的理解就是语言能力足够强大之后它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式然后还可以直接用学习来的引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令生成我们看到的逼真强大的对物理世界体现出“理解”的视频。
基于这个猜测OpenAI简短的介绍中的这句话似乎就更加重要了
“Sora 是能够理解和模拟现实世界的模型的基础OpenAI相信这一功能将成为实现AGI的重要里程碑。”
理解现实世界。
这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在OpenAI搞出来了它的雏形摆在了你的面前。
看起来这个模型学会了关于 3D 几何形状和一致性的知识而且并非OpenAI训练团队预先设定的而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示AGI将能够模拟物理世界而Sora就是迈向这个方向的关键一步。 显然在OpenAI眼里它不只是一个“文生视频模型”而是更大的东西。
我们如果尝试进一步给一个暴论就是语言是理解一切的基础理解了视频后世界模型才会到来。
可能这才是比今天刷屏感慨“现实不存在了”之外更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。 免责声明AI资讯内容均来自网络收集仅供学习交流使用严禁商用版权属于原作者本公众号不承担用户因使用或分享该资源对自身以及他人所造成的任何影响和伤害如需获得更好体验还请大家支持正版。如本公众号内容侵犯原作者的版权或利益我们深感抱歉请及时联系我们删除发送邮件到hmmwx53163.com我们将会在收到消息后立即删除并撤下资源感谢