当前位置：首页 > news >正文

陕西网站建设陕icp备wordpress经典

news 2025/11/14 13:08:01

陕西网站建设陕icp备,wordpress经典,瑞安市网站建设,网站维护的主要内容包括2024 年 2 月 16 日。就在谷歌发布他新一代的多模态大模型 Gemini 1.5 Pro 的同一天#xff0c;OpenAI 带着新一代的文生视频模型 Sora 再次抓住了全世界人们的眼球。 “颠覆”、“炸裂”、“变天”、“疯狂”#xff0c;类似的形容词一夜之间簇拥在 Sora 周围#xff0c;…2024 年 2 月 16 日。就在谷歌发布他新一代的多模态大模型 Gemini 1.5 Pro 的同一天OpenAI 带着新一代的文生视频模型 Sora 再次抓住了全世界人们的眼球。 “颠覆”、“炸裂”、“变天”、“疯狂”类似的形容词一夜之间簇拥在 Sora 周围可能不同于 ChatGPT我们还需要与其“促膝长谈”才能惊觉它的与众不同Sora 几乎是以一种所见即所得的方法将震撼输入到我们的眼眶。如果说从文本到文本的一问一答从输入到输出模型为我们提供与增加的信息量我们尚且可以想象的话Sora 这样从文本到视频的输入输出可能只有用“创造”一词可以概括。而同时已经被 ChatGPT 的成功培养过的 AI 创业者投资者们马上看到了隐藏在这意为“天空”的四个字母组合下巨大的商业机遇风口之下转回自身我们可能马上会想到“伴随着 Sora 的出现国内的 AI 企业呢有无类似 Sora 的产品有无相应的技术积累有无快速组建团队跟进文生视频技术的能力” 那么今天我们就对国内视频生成模型的现状来一次“工业大摸底”看看当下国内的视频生成模型究竟如何到底怎样与 Sora 差距几何又有无亮眼之处。我们整体介绍了国内包含字节、腾讯、百度、阿里以及两家创业企业的 9 个视频生成模型整体汇总如下 OK在介绍国产模型之前让我们先从 Sora 开始讲起…… OpenAISora 事实上就像大语言模型文生视频并不是一个 OpenAI “独创”的领域而是伴随着如文生图技术的进步与发展衍生出的具有更高技术难度与复杂度的“子领域”。在 Sora 之前我们就已经报道过不少关于文生视频的工作简单列举几个譬如谷歌重磅发布零样本视频生成模型效果惊艳赶超扩散模型字节最新文生视频模型引发围观狐狸跳舞超丝滑效果超Gen-2 短视频界的变革者上海 AI lab 发布 Vlogger几句话生成分钟级视频文生视频 Pika 1.0 全面开放测试 AI自导自演的电视剧每个角色都是一个大模型斯坦福25人小镇精神续作 …… 可以看到在视频生成领域很早就有 Pika、Runway、Gen-2 等等珠玉在前那么面对这么多视频生成的工作为什么只有 Sora 成功破圈了呢面对这个问题就让我们首先来快速过一下 Sora 的技术报告文章题为《Video generation models as world simulators》在开篇伊始OpenAI 强调的反而不是其卓越的视频生成能力而是其作为“世界模拟器”的潜力。这里其实划重点区别于以往的视频生成工作Sora 在生成高清精美的视频背后事实上为 AGI 探索了一条“模拟真实世界模型”的技术进路Sora 生成的视频惊人的展现了模型对“物理世界”这个抽象概念的理解复述英伟达人工智能研究院 Jim Fan 的评论“如果你还是把Sora当做DALLE那样的生成式玩具还是好好想想吧这是一个数据驱动的物理引擎。” 从技术架构的角度目前大部分学者仍然是认为 Sora 展现的 World Simulators 功能仍然是很有 OpenAI 风格的参数量增加导致的“涌现”的结果。其实先不说是大模型哪怕是最先进的仿真软件在建模物理世界这件事上都面临着极大的困难从视频生成的角度模型理解物理世界需要做到比如三维一致性物体持久性长距离连贯性等等而这一切是如何从目前技术报告中公布的 VAE编码器 ViT 条件扩散 DiT模块 VAE解码器中得到似乎还是一个未解之谜。而除了充满科幻色彩的“世界模拟器”作为一个“文生视频大模型”Sora 最突出也是最令人震撼的一点在于它可以根据 Prompt 文字直接生成 60 秒的连贯视频60 秒看似不长但是在 Sora 出现以前AI 生成视频的平均长度仅仅在 4 秒左右而如果再给这个数字一个参照物人均单日使用时长超 2.5 小时的抖音短视频的平均长度仅仅在 20-30 秒之间对于商业电影60 秒意味着 15 个镜头对于优秀导演而言甚至足够叙述一个完整的故事。此外在视频时长这个可以被量化对比的指标以外Sora 给人更直观的感受是其绝佳的“连贯性” 不是面向阅读论文关注量化指标的审稿人而是面向大众高清连贯的视频更能给人带来以最为直观的视觉冲击。同时Sora 的“逼真度”也着将视频生成上升到了一个新的高度如下图所示如果不是央视特殊标注“模型生成视频”有几个人可以从这个眼睛中看到一丝破绽而除了这些最直观的颠覆以外Sora 还带来了诸如更强的语义理解能力、对不同宽高比和分辨率的适应能力、优秀的视频扩展能力等等也无怪于 Sora 横空出世就可以为视频生成带来“ChatGPT 时刻”。 OK先入为主看完 Sora 实现的神奇功能那么再让我们站在更高的视角带着批判的眼光看看过去半年内国产视频生成模型现状字节MagicVideo-V2/PixelDance 在国内大厂中视频生成领域布局最多的还是当属靠短视频发家致富的字节跳动事实上在 Sora 面世前的一个月字节其实刚刚推出了一款文生视频模型 MagicVideo-V2通过将文生图像、图像生成视频、视频到视频和视频帧插值四大模型集成在一个框架内使得 MagicVideo-V2 有能力生成高清、流畅与连贯的视频。在论文中字节强调这是一款在视频高清度、润滑度、连贯性、文本语义还原等方面击败主流的如 Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion 等的先进文生视频模型从官网https://magicvideov2.github.io的例子中来看视频的清晰度、逼真程度与动作的连贯性其实都相当不错举例来看让 MagicVideo-V2 生成一只弹吉他的北极熊视频高清度、文本语义还原程度与连贯性都相当不错 ▲A polar bear is playing guitar 而再如希望生成不是卡通而是更加真实一点的视频一个小男孩在公园小路上骑自行车这里我们可以看到对比 Sora “以假乱真” 式的结果MagicVideo-V2 则略显“卡通”仍然有不真实的感觉存在并且一些细节部位的处理的仍然不到位当然前面说的不够逼真与略显卡通事实都无伤大雅对比 Sora 真正让 MagicVideo-V2 一败涂地的还是视频时长从上面的例子中也可以看出MagicVideo-V2 生成的视频时长仍然在 3-4 秒之内我们往往只能看到“图片”确实动起来了但远没有 Sora 带给我们大片式的震撼。除了最新的 MagicVideo-V2去年 11 月字节也发布了一款文字首帧指导图片尾帧指导图片生成视频的工具 PixelDance。区别于完全的文本到视频的转换PixelDance 的模式是从指导图片文本描述到视频的转换尽管也是 GIF 画风但是清晰度与流畅度已经可以让人眼前一亮比如下面这段“铜雕夫妻接吻并旋转” 但是视频整体风格仍然有点“虚假”认人物动作有时候也比较僵硬比如下面这个“女孩慢慢转过头微笑头发” 而除却上面这些三四秒的动画也许是得益于有“图片”信息的辅助在官网https://makepixelsdance.github.io中PixelDance 令人惊喜的制造了一部“超越” Sora 的三分钟微电影不过从上面这部“电影”来看动作不自然、转场僵硬角色突然的形变等等这类问题数不胜数还远远未达到“颠覆短视频业”的程度。而其实事实上在去年 11 月 PixelDance 面世之初也就是三四个月前视频生成业界的观点还停留在“生成有高度一致性且有丰富动态性的视频让视频内容真正地动起来是目前视频生成领域中的最大挑战”。而对比当时的观点与这些“旧模型”Sora 带给人们的震撼可能也并不难以理解。除了 MagicVideo-V2 与 PixelDance 以外这两天抖音旗下的剪映也宣布文生图工具 Dreamina 即将上线文生视频的功能并且正在内测当下 Sora 热度未减不知道 Dreamina 能否带给大家不同于 MagicVideo-V2 的惊喜让我们一起期待。腾讯VideoCrafter2 非常有意思的是在字节发布 MagicVideo-V2 仅仅一天后1 月 17 日国内大厂像玩起萝卜蹲式的推出自己的视频生成模型前有腾讯的 VideoCrafter2后有百度的 UniVG先来说说腾讯的 VideoCrafter2。顾名思义VideoCrafter2 是与 PixelDance 同期发布的 VideoCrafter 的续作先来简单看看这个 VideoCrafter 的“成片”比如“宇航员骑马” 效果其实与同期的几个模型大同小异不过 VideoCrafter 在个性化视频生成与视频生成控制上做了文章支持在一组特定的视频片段或图像中对模型进行微调以迁移视频风格与更深度的控制生成结果的能力。值得注意的是VideoCrafter 使用的是被 Sora 用Diffusion TransformerDiT“扬弃” 了的 U-net 网络而这一点在 VideoCrafter2 中也没有改变。而事实上VideoCrafter2 的主要贡献集中在了“如何用低质量视频和高质量图像数据生成高质量视频”上https://github.com/AILab-CVC/VideoCrafter。当然对比原始的 VideoCrafterVideoCrafter2 在视频清晰度与动态效果上也有极大的提升比如“一个孩子兴奋地在有点生锈的秋千上荡秋千” 再如“一位戴眼镜的年轻女子戴着粉红色的头带在公园慢跑” 整体来看视频的清晰度流畅程度其实都可圈可点这种在低质量数据中训练高质量视频的方法也非常有可取之处。不过遗憾的是如果我们先入为主首先看过了 Sora 生成的视频无论是从视频长度、动作质量还是人物形变等等方面总会令人感觉这二者仿佛不在一个维度进行竞争。百度UniVG 说完了腾讯的 VideoCrafter2再来看看百度同天上线的 UniVGhttps://univg-baidu.github.io区别于腾讯主要在从低质量数据到高质量数据上做文章百度 UniVG 的卖点主要在于“Unified-Model”期望构建一种文字与图片任意组合输入的更加灵活的视频生成模型。从生成结果来看UniVG 的清晰度非常令人惊喜比如“一只猫正在吃胡萝卜” “小女孩与鱼” 整体来看清晰度、真实性都相当不错但可能最大的问题仍然在“太短了”生成的视频仍然像是多张图片的“拼凑”而似乎没有一个构建统一故事的可能。UniVG 生成效果的整体演示如下面的视频所示阿里I2VGen-XL/EMO 再来看阿里其实在 Sora 面世前的五个月阿里就在其魔搭社区上线了视频生成大模型 I2VGen-XLhttps://i2vgen-xl.github.io区别于文字生成视频阿里 I2VGen-XL 的主要方向是图像生成视频同样是基于 Latent Diffusion ModelsLDM阿里与腾讯一样也使用的是 U-net 网络而在模型架构以外I2VGen-XL 在数据集上也下了功夫收集了约 3500 万单镜头文本-视频对与 60 亿文本-图像对优化模型。从视频生成效果来看I2VGen-XL 也确实对的起“High-Quality”的评价。比如输入一张这样的猫咪图片 I2VGen-XL 生成的视频效果是这样的输入三只狼 I2VGen-XL 也能让他们“跑起来” 其实 I2VGen-XL 在问世之初也被冠以“里程碑”的名号在视频的动作丰富度还原度流畅度等等方面也都做到了当时最佳然而 I2VGen-XL 也仍然只是让图片“动了起来”也远未达到 Sora “World Simulators”级别的震撼。除了 I2VGen-XL也就是在最近几天阿里又推出了其图片声音生成视频的 EMO 框架 Emote Portrait AliveEMO。相比 I2VGen-XL不得不说阿里这个 EMO 要更为好玩一点如上图所示对一张图片任意输入一段音频就可以让蒙娜丽莎讲话让赫本开口唱歌这里还有一个和 Sora 的小小联动输入一个 Sora 生成的虚拟决策再加一段 OpenAI 首席技术官 Mira Murari 接受访谈的音频就可以惟妙惟肖的以假乱真除了单纯的从图像到视频EMO 更令人惊喜的功能在于无论输入音频的长度如何EMO 都可以生成相应时长的视频并且保持角色的个性与特征。而从上面的视频中也可以看到这次由 EMO 生成的视频超越了之前几家“GIF”的特征面部表情和头部姿态都可以保持长时间的生动与稳定也有大佬揪住细节甚至发现 EMO 生成的视频耳朵、眉毛与喉咙的还原度都非常之高创业公司HiDream/PixVerse…… 除了这些大厂巨头国内也有不少创业公司在发力视频生成这一领域比较有代表的有智象未来HiDream.ai的 HiDream 与爱诗科技的 PixVerse。这两款应用都可以方便的在线体验 HiDreamhttps://hidreamai.com/ PixVersehttps://app.pixverse.ai/ 先来看 HiDreamHiDream 可以直接通过微信进行登录输入一段文字 HiDream 可以在一两分钟内生成出对应的视频比如我们以“一只弹吉他的北极熊”进行测试 HiDream 可以生成出 4 秒左右的视频视频清晰度动作流畅度也都相当不错再来看 PixVerse在输入提示词选择各种风格之后PixVerse 在几分钟内也可以生成对应的视频不过其指令遵循能力似乎并不太能得到信赖同样以 “一只弹吉他的北极熊” 为输入当风格勾选“现实”时PixVerse 生成了一个女生在弹吉他而没有北极熊的影子而当风格勾选“动画”时PixVerse 却生成了两只北极熊其生成的视频质量如下所示可以明显看出一些细节的处理仍然不到位 Sora 之后放在一个更大的视角综合来看国产的视频生成模型与 Sora 的对比尽管这些模型问世时都或多或少的为我们带来了惊喜在论文与技术报告中宣称超越了各种 benchmark在没有 Sora 的对比之前或许我们都可以一个个赞美与表扬过去这里有创新那里有亮点。但是一旦当我们先行看过 Sora再去审视这些年龄仅仅比 Sora 大一两月与两三月的模型我们就会看到其实它们与我们想象中的也是 OpenAI 带给我们的“真正变革”相距甚远。英国近代史大师艾瑞克·霍布斯鲍姆如此评价工业革命“一旦工业化进程开始变革就成为了常态”而目光转向我们现在经历的这场 AI 革命我们却总是发现国产模型在“常态的变革”中完成最多的似乎又总是一些“小修小补”的工作而一次又一次与里程碑式的进步失之交臂。在国内一家又一家自诩或被人们称为“中国的 OpenAI”的公司中在所谓“中美平分 AI 的半壁江山”的论调下我们似乎总是在进行“赶超战略”但是就像谷歌在发布它的 Gemini 1.5 Pro 当天 Sora 横空出世那样如此继续在歌舞升平中“常态化变革”至“长期性平庸”我们总会一次又一次的看着 ChatGPT、Sora 这样的技术不断重复着他们出现、我们追赶、他们打压、我们落后的循环。我们需要看到在我们认为“视频生成最大的挑战在于‘让视频内容动起来’”时Sora 瞄准的是视频生成背后的“世界模拟器”的功能我们的视频生成模型与 Sora 的差距可能也不仅仅是我的 4 秒它的 60 秒。也许只有当我们的企业我们的创新不是单单瞄准一个领域圈定的范围画好的边界去集中力量办大事而是抱着对“智能”而非“智能应用”真正的“好奇”去指导我们想象智能的边界探索的未知的可能我们才有可能不再紧随其后而是弯道超车吧

查看全文

http://www.zqtcl.cn/news/345037/