共计 3515 个字符,预计需要花费 9 分钟才能阅读完成。
视频生成模型作为世界模拟器
咱们摸索了在视频数据上进行大规模生成模型的训练。
具体来说,咱们联结在可变持续时间、分辨率和长宽比的视频和图像上训练文本条件扩散模型。
咱们利用了一个在视频和图像潜在编码的时空补丁上操作的变压器架构。
咱们最大的模型 Sora 可能生成一分钟的高保真视频。咱们的结果表明,扩大视频生成模型是建设通用物理世界模拟器的有前途的路径。
TODO: 视频
PS:其余视频省略。
这份技术报告着重介绍了两个方面:
(1) 咱们将各种类型的视觉数据转化为对立示意的办法,从而实现了生成模型的大规模训练;
(2) 对 Sora 的能力和局限性进行了定性评估。模型和实现细节不蕴含在本报告中。
之前的钻研曾经探讨了利用各种办法对视频数据进行生成建模,包含循环网络、生成反抗网络、自回归变压器和扩散模型等。
这些工作通常专一于某一类视觉数据,或者是针对较短的视频,或者是针对尺寸固定的视频。
Sora 是一种通用的视觉数据模型——它能够生成逾越不同持续时间、长宽比和分辨率的视频和图像,高清视频的长度可达一分钟。
将视觉数据转化为补丁 Turning visual data into patches
咱们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练取得了通用能力。
语言模型范式的胜利局部得益于优雅地对立了文本、代码、数学和各种自然语言等多种形式的令牌的应用。
在这项工作中,咱们思考了生成视觉数据模型如何继承这些益处。
而语言模型有文本令牌,Sora 有视觉补丁。曾经有钻研表明,补丁是视觉数据模型的无效示意。咱们发现,补丁是一种高度可扩大且无效的示意,可用于训练不同类型的视频和图像的生成模型。
在高层次上,咱们通过首先将视频压缩成低维潜在空间,而后将示意合成为时空补丁来将视频转化为补丁。
视频压缩网络 Video compression network
咱们训练了一个网络来升高视觉数据的维度。该网络将原始视频作为输出,并输入一个在工夫和空间上都被压缩的潜在示意。
Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。咱们还训练了一个相应的解码器模型,将生成的潜在示意映射回像素空间。
时空潜在补丁 Spacetime latent patches
给定一个压缩的输出视频,咱们提取一系列时空补丁,这些补丁充当变压器令牌。
这个计划对图像也实用,因为图像只是具备单个帧的视频。咱们基于补丁的示意使得 Sora 可能在分辨率、持续时间和长宽比各异的视频和图像上进行训练。
在推理时,咱们能够通过将随机初始化的补丁排列成适当大小的网格来管制生成视频的大小。
对视频生成进行变压器的扩大 Scaling transformers for video generation
Sora 是一个扩散模型;给定输出的噪声补丁(以及诸如文本提醒等的条件信息),它被训练成预测原始的“洁净”补丁。
值得注意的是,Sora 是一个扩散变压器。变压器在各种畛域展现了显著的扩大个性,包含语言建模、计算机视觉和图像生成。
在这项工作中,咱们发现扩散变压器(diffusion transformers)在视频模型中也能无效扩大。
上面,咱们展现了随着训练计算量减少,应用固定种子和输出的视频样本的比拟。
随着训练计算量的减少,样本品质显著进步。
变动的持续时间、分辨率、长宽比 Variable durations, resolutions, aspect ratios
过来的图像和视频生成办法通常会将视频调整大小、裁剪或修剪到规范大小——例如,256×256 分辨率的 4 秒视频。
咱们发现,与其在规范大小上进行训练,不如在数据的原始大小上进行训练具备几个益处。
采样灵活性 Sampling flexibility
Sora 能够对宽屏的 1920x1080p 视频、垂直的 1080×1920 视频以及两者之间的所有内容进行采样。
这使得 Sora 可能间接依照其原成长宽比为不同设施创立内容。这也使咱们可能在生成全分辨率之前疾速原型化较低大小的内容——而所有这些都是应用同一个模型实现的。
改善构图和构图 Improved framing and composition
咱们凭教训发现,应用视频的原始长宽比进行训练能够改善构图和构图。
咱们将 Sora 与咱们模型的一个版本进行比拟,该版本将所有训练视频裁剪为正方形,这在训练生成模型时是常见的做法。
在应用正方形裁剪训练的模型(左)中,有时会生成主体仅局部可见的视频。相比之下,来自 Sora(右)的视频具备改善的构图。
语言了解 Language understanding
训练文本到视频生成零碎须要大量带有相应文本题目的视频。咱们利用了 DALL·E 3 中引入的从新题目技术到视频中。咱们首先训练一个高度描述性的题目生成模型,而后应用它为咱们训练集中的所有视频生成文本题目。咱们发现,在高度描述性的视频题目上进行训练不仅能够进步文本的准确性,还能够进步视频的整体品质。
相似于 DALL·E 3,咱们还利用 GPT 将短用户提醒转化为更长、具体的题目,而后将其发送到视频模型。这使得 Sora 可能生成高质量的视频,并精确地遵循用户的提醒。
应用图像和视频提醒
下面所有的后果以及咱们网页上的展现都是文本到视频样本。然而 Sora 也能够应用其余输出来提醒,比方现有的图像或视频。这种能力使得 Sora 可能执行各种图像和视频编辑工作——创立完满循环的视频、将动态图像动画化、将视频向前或向后缩短等。
将 DALL·E 图像动画化
Sora 可能依据图像和提醒生成视频。
上面咱们展现了依据 DALL·E 231 和 DALL·E 330 图像生成的示例视频。
扩大生成的视频
Sora 还可能扩大视频,无论是向前还是向后延长时间。
以下是四个视频,它们都是从一个生成视频的片段开始向工夫向后缩短的。因而,这四个视频中的每一个都从不同的终点开始,但最终都会导向同一个结尾。
视频到视频编辑
扩散模型曾经为从文本提醒编辑图像和视频提供了大量的办法。
上面咱们将其中一种办法,SDEdit,利用到 Sora 上。这种技术使得 Sora 可能零样本地转换输出视频的格调和环境。
连贯视频
咱们还能够应用 Sora 逐步插值两个输出视频之间,创立齐全不同主题和场景构图的视频之间的无缝过渡。在上面的示例中,两头的视频是左侧和右侧对应视频之间的插值。
图像生成能力
Sora 也可能生成图像。
咱们通过在一个帧的工夫范畴内以空间网格的模式排列高斯噪声的补丁来实现这一点。该模型能够生成各种尺寸的图像,分辨率高达 2048×2048。
新兴的模拟能力
咱们发现,当在大规模训练时,视频模型体现出许多乏味的新兴能力。
这些能力使得 Sora 可能模仿物理世界中的一些人、动物和环境的某些方面。这些属性在没有任何明确的演绎偏差的状况下呈现,比方对 3D、物体等,它们纯正是规模效应的景象。
3D 一致性。Sora 能够生成具备动静摄像机静止的视频。随着摄像机的挪动和旋转,人物和场景元素在三维空间中以统一的形式挪动。
长程一致性和对象持久性(Long-range coherence and object permanence.)。
视频生成零碎面临的一个重要挑战是在采样长视频时放弃工夫一致性。咱们发现,只管不总是如此,但 Sora 通常可能无效地模仿短程和长程依赖关系。例如,咱们的模型能够在人、动物和物体被遮挡或来到画面时仍能继续存在。同样,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中放弃其外观。
与世界互动。Sora 有时能够模仿以简略形式影响世界状态的动作。
例如,一个画家能够在画布上留下新的笔触,并随着工夫的推移而继续存在,或者一个人能够吃汉堡并留下咬痕。
模仿数字世界。Sora 还可能模仿人工过程——一个例子是视频游戏。
Sora 能够同时应用根本策略管制 Minecraft 中的玩家,并以高保真度渲染世界及其动静。这些能力能够通过提醒 Sora 并提到“Minecraft”来零样本激发。
这些能力表明,继续扩大视频模型是通向开发高度能力的物理世界和数字世界以及其中的物体、动物和人类的模拟器的有前途的门路。
Discussion
Sora 目前作为模拟器体现出许多限度。例如,它不能精确地模仿许多根本交互的物理现象,比方玻璃破碎。其余交互,比方吃食物,并不总是产生正确的物体状态变动。咱们在咱们的首页上列举了模型的其余常见故障模式,比方在长时间样本中倒退出的不一致性或物体的忽然呈现。
咱们置信 Sora 明天所具备的能力表明,持续扩大视频模型是通往开发可能模仿物理世界和数字世界以及其中生存的物体、动物和人类的有能力模拟器的有前途的路线。
参考资料
https://cdn.openai.com/papers/dall-e-3.pdf
本文由博客一文多发平台 OpenWrite 公布!