关于人工智能:探索AI视频生成新纪元文生视频Sora-VS-RunwayMLPika及StableVideo谁将引领未来

36次阅读

共计 7310 个字符,预计需要花费 19 分钟才能阅读完成。

摸索 AI 视频生成新纪元:文生视频 Sora VS RunwayML、Pika 及 StableVideo——谁将引领将来

因为在 AI 生成视频的时长上胜利冲破到一分钟,再加上演示视频的高度真切和高质量,Sora 立即引起了轰动。在 Sora 横空出世之前,Runway 始终被视为 AI 生成视频的默认抉择,尤其是自去年 11 月推出第二代模型以来,Runway 还被称为“AI 视频界的 MidJourney”。第二代模型 Gen- 2 不仅解决了第一代 AI 生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的后果。

Sora 最震撼的技术冲破之一在于其输入的视频时长。Runway 可能生成 4 秒长的视频,用户能够将其最多缩短至 16 秒,是 AI 生成视频在 2023 年所能达到的最长时长纪录。Stable Video 也提供 4 秒的视频,Pika 则提供 3 秒的视频。在这一方面,Sora 以 1 分钟的时长向竞争对手们提出了挑战。实质上,Sora 和 Pika、Runway 采纳了类似的底层模型,即 Diffusion 扩散模型。不同之处在于,Sora 把其中的实现逻辑进行了变动,将 U -Net 架构替换成了 Transformer 架构。

1. 文生视频成果展现比照:

1.1 sora 之前模型成果

  • StableVideo 成果展现

能够看到成果个别能比拟显著看出差异

1.2 支流视频生成模型比照 [Sora VS RunwayML、Pika]

让机器生成视频,难点在于“真切”。比方一个人在同一个视频里的长焦和短焦镜头里外观不会变动;随着镜头转动,站在山崖上的小狗应该跟山崖保持一致的挪动;咬一口面包,面包就会少一块并呈现牙印……这些逻辑对人来说仿佛不言而喻,但 AI 模型很难领悟到前一帧和后一帧画面之间的各种逻辑和关联。

首先要强调下生成式 AI 模型跟传统信息检索的区别。传统检索是按图索骥,从数据库固定地位调取信息,准确度高,但不具备触类旁通的能力。而生成式 AI 模型不会去记住数据自身,而是从大量数据中去学习和把握生成语言、图像或视频的某种办法,产生难以解释的“涌现”能力。

图源:https://twitter.com/samsheffer/status/1758205467682357732_

当然,随着 Sora 退出这场视频生成畛域的和平,受到冲击最大的是同类竞品模型,比方 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成成果之后,很多人认为,Sora 对这些「前辈」来了一波降维打击。事实真的如此吗?有推特博主曾经做了比照。

这位博主给 Sora、Pika、Runway、Stable Video 四个模型输出了雷同的 prompt:

漂亮、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,追随几个人享受漂亮的雪天,在左近的摊位购物,壮丽的樱花花瓣随着雪花随风飘扬。

能够看到,相比于其余三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的劣势。

图源:https://twitter.com/gabor/status/1758282791547232482_

这样的比照还有很多,比方输出雷同的 prompt「一窝金毛幼犬在雪地里游玩,它们的头从雪中探出来,被雪笼罩。」

图源:https://twitter.com/DailyUpdatesNet/status/1758646902751670355_

再比方输出雷同的 prompt「几只微小的毛茸茸的猛犸象踏着白雪皑皑的草地走来,长长的毛毛在风中微微飘动,远处笼罩着积雪的树木和宏伟的雪山,午后的阳光、缕缕云彩和远处高高的太阳营造出和煦的光辉,低相机视线令人惊叹地捕捉到了大型毛茸茸的哺乳动物与漂亮的摄影,景深。」

尽管 Runway 和 Pika 体现都不错,但 Sora 的生成品质具备压倒性的劣势。

图源:https://twitter.com/keitowebai/status/1758384152670577136_

还有人比照了 Pika 1.0(去年四月)与 Sora,感叹不到 1 年的工夫,AI 生成视频曾经产生了天翻地覆的变动。

原视频:https://twitter.com/QuintinAu/status/1758536835595124910_

与此同时,更多创作者也晒出了他们应用 Sora 生成的视频,进一步验证了 Sora 的超强视频生成能力。

比方输出 prompt「一座微小的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。」

_

图源:https://twitter.com/billpeeb/status/1758650919430848991_

比方输出 prompt「一座幽灵般的鬼屋,有敌对的杰克灯笼和鬼魂人物,欢送捣蛋鬼来到入口,歪斜移位摄影。」

图源:https://twitter.com/billpeeb/status/1758658884582142310_

比方输出 prompt「一个由水制成的人行走着,参观了一个美术馆,外面有许多不同格调的漂亮艺术品。」

图源:https://twitter.com/_tim_brooks/status/1758666264032280683_

比方输出 prompt「人们在海滩放松的实在视频,一条鲨鱼从水中冒了进去,让所有人大吃一惊。」

图源:https://twitter.com/_tim_brooks/status/1758655323576164830_

2.Sora-OpenAI 技术报告

技术报告地址 https://openai.com/research/video-generation-models-as-world-simulators

OpenAI 在技术报告里总结了一些以前模型罕用的视频生成和建模办法,包含循环网络、生成式反抗网络、自回归 Transformer 和扩散模型。它们只能生成固定尺寸、时长较短的视频。

OpenAI 在技术报告中重点展现了:
(1)将所有类型的视觉数据转化为对立示意,从而可能大规模训练生成模型的办法;
(2)对 Sora 的能力和局限性进行定性评估。

最近一段时间,视频生成是 AI 畛域的重要方向,先前的许多工作钻研了视频数据的生成建模方向,包含循环网络、生成反抗网络、自回归 transformer 和扩散模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。与之不同的是,OpenAI 的 Sora 是视觉数据的通用模型,它能够生成不同时长、长宽比和分辨率的视频和图像,而且最多能够输入长达一分钟的高清视频。

2.1 视觉数据转为 Patches

大型语言模型通过在互联网规模的数据上进行训练,取得了杰出的通用能力中,OpenAI 从这一点吸取了灵感。LLM 得以确立新范式,局部得益于翻新了 token 应用的办法。钻研人员们奇妙地将文本的多种模态 —— 代码、数学和各种自然语言对立了起来。在这项工作中,OpenAI 思考了生成视觉数据的模型如何继承这种办法的益处。大型语言模型有文本 token,而 Sora 有视觉 patches。此前的钻研曾经证实 patches 是视觉数据模型的无效示意。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩大且无效的示意。

在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,而后将示意合成为时空 patches,从而将视频转换为 patches。

  • (自回归)长视频生成

Sora 的一个重大突破是可能生成十分长的视频。制作 2 秒视频和 1 分钟视频的区别是微小的。在 Sora 中,这可能是通过容许自回归采样的联结帧预测来实现的,但一个次要挑战是如何解决误差积攒并放弃品质 / 一致性。

2.2 视频压缩网络

Sora 实现了将 Transformer 和扩散模型联合的翻新,首先将不同类型的视觉数据转换成对立的视觉数据表示(视觉 patch),而后将原始视频压缩到一个低维潜在空间,并将视觉示意分解成时空 patch(相当于 Transformer token),让 Sora 在这个潜在空间里进行训练并生成视频。接着做加噪去噪,输出噪声 patch 后 Sora 通过预测原始“洁净”patch 来生成视频。OpenAI 发现训练计算量越大,样本品质就会越高,特地是通过大规模训练后,Sora 展现出模仿事实世界某些属性的“涌现”能力。这也是为啥 OpenAI 把视频生成模型称作“世界模拟器”,并总结说继续扩大视频模型是一条模仿物理和数字世界的心愿之路。

训练了一个升高视觉数据维度的网络。该网络将原始视频作为输出,并输入在工夫和空间上压缩的潜在示意。Sora 在这个压缩的潜在空间中承受训练,而后生成视频。OpenAI 还训练了相应的解码器模型,将生成的潜在示意映射回像素空间。

  • 时空潜在 patches

给定一个压缩的输出视频,OpenAI 提取一系列时空 patches,充当 Transformer 的 tokens。该计划也实用于图像,因为图像可视为单帧视频。OpenAI 基于 patches 的示意使 Sora 可能对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,OpenAI 能够通过在适当大小的网格中排列随机初始化的 patches 来管制生成视频的大小。

  • 用于视频生成的缩放 Transformer

Sora 是个扩散模型;给定输出噪声 patches(以及文本提醒等调节信息),训练出的模型来预测原始的「洁净」patches。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都体现出了卓越的缩放个性,包含语言建模、计算机视觉、和图像生成。

在这项工作中,OpenAI 发现扩散 Transformers 也能够无效地缩放为视频模型。上面,OpenAI 展现了训练过程中具备固定种子和输出的视频样本的比拟。随着训练计算的减少,样本品质显着进步。

  • 可变的持续时间,分辨率,宽高比

过来的图像和视频生成办法通常须要调整大小、进行裁剪或者是将视频剪切到规范尺寸,例如 4 秒的视频分辨率为 256×256。相同,该钻研发现在原始大小的数据上进行训练,能够提供以下益处:

首先是采样的灵活性:Sora 能够采样宽屏视频 1920x1080p,垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 能够间接以其人造纵横比为不同设施创立内容。Sora 还容许在生成全分辨率的内容之前,以较小的尺寸疾速创立内容原型 —— 所有内容都应用雷同的模型。

其次是改良帧和内容组成:研究者通过实证发现,应用视频的原始长宽比进行训练能够晋升内容组成和帧的品质。将 Sora 在与其余模型的比拟中,后者将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。通过正方形裁剪训练的模型(左侧)生成的视频,其中的视频主题只是局部可见。相比之下,Sora 生成的视频(右侧)具备改良的帧内容。

2.3 语言了解

训练文本到视频生成零碎须要大量带有相应文本字幕的视频。钻研团队将 DALL ・ E 3 中的重字幕(re-captioning)技术利用于视频。

具体来说,钻研团队首先训练一个高度描述性的字幕生成器模型,而后应用它为训练集中所有视频生成文本字幕。钻研团队发现,对高度描述性视频字幕进行训练能够进步文本保真度以及视频的整体品质。

与 DALL ・ E 3 相似,钻研团队还利用 GPT 将简短的用户 prompt 转换为较长的具体字幕,而后发送到视频模型。这使得 Sora 可能生成精确遵循用户 prompt 的高质量视频。

  • 以图像和视频作为提醒

咱们曾经看到了文本到视频的诸多生成示例。实际上,Sora 还能够应用其余输出,如已有的图像或视频。这使 Sora 可能执行各种图像和视频编辑工作 — 创立完满的循环视频、动态图像动画、向前或向后缩短视频工夫等。

为 DALL-E 图像制作动画

只有输出图像和提醒,Sora 就能生成视频。上面展现了依据 DALL-E 2 和 DALL-E 3 图像生成的视频示例:

狗戴着贝雷帽、衣着彩色高领毛衣

带有 Sora 的云图像

视频内容拓展

Sora 还可能在结尾或结尾扩大视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的结尾各不相同,领有雷同的结尾。

无妨应用这种办法有限缩短视频的内容,实现「视频制作永动机」。

视频到视频编辑

扩散模型激发了多种依据文本 prompt 编辑图像和视频的办法。OpenAI 的钻研团队将其中一种办法 ——SDEdit 利用于 Sora,使得 Sora 可能在零样本(zero-shot)条件下扭转输出视频的格调和环境。

输出视频如下:

输入后果:

连贯视频还能够应用 Sora 在两个输出视频之间逐步进行转场,从而在具备齐全不同主题和场景形成的视频之间创立无缝过渡。

2.4 图像生成能力

Sora 还能生成图像。为此,OpenAI 将高斯噪声 patch 排列在空间网格中,工夫范畴为一帧。该模型可生成不同大小的图像,最高分辨率可达 2048×2048。

涌现模拟能力

OpenAI 发现,视频模型在通过大规模训练后,会体现出许多乏味的新能力。这些能力使 Sora 可能模仿物理世界中的人、动物和环境的某些方面。这些个性的呈现没有任何明确的三维、物体等演绎偏差 — 它们纯正是规模景象。

三维一致性。Sora 能够生成动静摄像机静止的视频。随着摄像机的挪动和旋转,人物和场景元素在三维空间中的挪动是统一的。

长序列连贯性和指标持久性。视频生成零碎面临的一个重大挑战是在对长视频进行采样时放弃工夫一致性。OpenAI 发现,尽管 Sora 并不总是能无效地模仿短距离和长距离的依赖关系,但它在很多时候依然能做到这一点。例如,即便人、动物和物体被遮挡或来到画面,Sora 模型也能放弃它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,并在整个视频中放弃其外观。

与世界互动。Sora 有时能够模仿以简略形式影响世界状态的动作。例如,画家能够在画布上留下新的笔触,这些笔触会随着工夫的推移而继续,或者一个人能够吃汉堡并留下咬痕。

模仿数字世界。Sora 还能模仿人工过程,视频游戏就是一个例子。Sora 能够通过根本策略同时管制 Minecraft 中的玩家,同时高保真地出现世界及其动静。只需在 Sora 的提醒字幕中提及「Minecraft」,就能零样本激发这些性能。

这些性能表明,视频模型的继续扩大是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的路线。

2.5 将来可优化方向

作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能精确模仿许多根本交互的物理现象,如玻璃碎裂。其余交互,如吃食物,并不总能产生正确的物体状态变动。官方主页列举了该模型的其余常见生效模式,例如长时间样本中呈现的不一致性或物体的自发呈现。

不过,Sora 目前所展示的能力证实了继续扩充视频模型的规模是一个充满希望的方向,这也将助力物理和数字世界及其中的物体、动物和人类可能有更加准确的模仿。

更多具体内容,请参阅 Sora 原始技术报告。

参考链接:https://openai.com/research/video-generation-models-as-world-simulators

3. Sora 总结

OpenAI 的钻研论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的办法。这项钻研特地关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,解决不同时长、分辨率和宽高比的数据。钻研中提到的最大模型 Sora 可能生成长达一分钟的高保真视频。以下是论文的一些关键点:

  1. 对立的视觉数据表示 :研究者们将所有类型的视觉数据转换为对立的示意,以便进行大规模的生成模型训练。Sora 应用视觉补丁(patches)作为其示意形式,相似于大型语言模型(LLM)中的文本标记。
  2. 视频压缩网络 :研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其示意合成为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。
  3. 扩散模型 :Sora 是一个扩散模型,它通过预测原始“洁净”的补丁来从输出的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等畛域曾经显示出了显著的扩展性。
  4. 视频生成的可扩展性 :Sora 可能生成不同分辨率、时长和宽高比的视频,包含全高清视频。这种灵活性使得 Sora 可能间接为不同设施生成内容,或者在生成全分辨率视频之前疾速原型化内容。
  5. 语言了解 :为了训练文本到视频生成零碎,须要大量的视频和相应的文本题目。研究者们利用了在 DALL·E 3 中引入的从新形容技术,首先训练一个高度描述性的题目生成器,而后为训练集中的所有视频生成文本题目。
  6. 图像和视频编辑 :Sora 不仅可能基于文本提醒生成视频,还能够基于现有图像或视频进行提醒。这使得 Sora 可能执行宽泛的图像和视频编辑工作,如创立完满循环的视频、动画动态图像、向前或向后扩大视频等。
  7. 模拟能力 :当视频模型在大规模训练时,它们展现出了一些乏味的新兴能力,使得 Sora 可能模仿物理世界中的某些方面,如动静相机静止、长期一致性和对象持久性等。

只管 Sora 展现了作为模拟器的后劲,但它依然存在许多局限性,例如在模仿根本物理交互(如玻璃破碎)时的准确性有余。研究者们认为,持续扩大视频模型是开发物理和数字世界模拟器的有前途的路线。
这篇论文提供了对 Sora 模型的深入分析,展现了其在视频生成畛域的后劲和挑战。通过这种形式,OpenAI 正在摸索如何利用 AI 来更好地了解和模仿咱们四周的世界。

更多优质内容请关注公号:汀丶人工智能;会提供一些相干的资源和优质文章,收费获取浏览。

  • 参考链接:

stable-diffusion-videos:https://github.com/nateraw/stable-diffusion-videos

StableVideo:https://github.com/rese1f/StableVideo

sora 官网:https://openai.com/sora

sora 报告的链接:https://openai.com/research/video-generation-models-as-world-…

正文完
 0