关于人工智能:化是渐化变是顿变一窥-OpenAI-Sora-相关技术的演进

编者按： 近期，OpenAI 公布通用视觉大模型 Sora，这也是继文本模型 ChatGPT 和图片模型 Dall- E 之后，又一极具颠覆性的大模型产品，人们从新思考了生成式 AI 在视觉内容创作畛域的利用前景，内容创作工作流无望被颠覆。
咱们明天要为大家分享的这篇博文，作者认为 Sora 代表了 Transformer、NaViT、扩散模型等一系列视觉 AI 技术的交融翻新，是迈向通用人工智能的重要一步。
作者首先简要介绍了 Sora 的性能，而后具体梳理了反对 Sora 的各项核心技术内容，包含 Transformer、ViT、ViVit、MAE、NaViT、扩散模型、Latent Diffusion Models 以及最要害的 Diffusion Transformer。最初，作者预测 Sora 将来将进一步拓展利用范畴，进军三维建模畛域，并最终成为相似物理引擎的通用剖析工具，为视觉内容创作甚至其余各个领域带来革命性提高。Sora 的诞生预示着多模态 AI 将逐渐走向成熟与遍及，人类想象力的边界将失去进一步拓展。

作者 | Ryota Kiuchi, Ph.D.

编译 | 岳扬

Photo by Kaushik Panchal on Unsplash

2024 年 2 月 15 日，曾在 2022 年底公布 ChatGPT 惊艳世界的 OpenAI，再次凭借 Sora 的亮相震惊世界。不可否认，这项可能依据文字提醒词（text prompt）制作长达一分钟视频的技术必将是迈向 AGI 的又一座里程碑。

在这篇博文中，我将依据 OpenAI 公布的技术报告，介绍这项惊人技术背地的根本钻研办法和钻研内容。

顺便提一下，“Sora”在日语中是“天空”的意思。尽管官网尚未颁布这一命名是何用意，但鉴于 OpenAI 公布的推文中有一段以东京为主题的视频，因而能够揣测这个猜想是比拟正当的。

OpenAI 通过 X 向全世界展现 Sora

01 Sora 的简略介绍

02 它背地的相干技术和相干钻研有哪些？

03 这些钻研根底加上 OpenAI 的致力独特造就了 Sora

04 瞻望 Sora 的将来

Sora 是由 OpenAI 开发的一款 text-to-video（文生视频）转换模型，其能力和利用范畴指引了古代 AI 技术的新倒退方向。该模型不仅限于可能生成几秒钟的视频，甚至能够创立长达一分钟的视频，在放弃高质量的同时忠诚地满足用户的指令。它好像可能将大家的幻想变成事实。

OpenAI Sora 生成的内容演示

Sora 能够了解 Prompt 中形容的元素在物理世界中存在模式和运作形式（exist and operate）。这使得该模型可能精确地体现用户冀望在视频中呈现的动作和行为。例如，它能够真切地再现人奔跑的现象或天然景象的变动。此外，它还能准确再现多个角色的细节、动作类型以及主体和背景的具体细节。

以往，应用生成式人工智能进行视频创作面临着一个艰巨挑战，即如何在不同场景之间放弃一致性和可再现性。这是因为，在独自生成每个场景或每一帧时，要齐全了解之前的上下文和细节，并将其适当地继承到下一个场景中是一项极其艰巨的挑战。 然而，该模型通过将 “对带有视觉上下文的语言的深刻理解” 和 “对 prompt 的精确解读” 相结合，保障了叙事的一致性。它还能从给定的 prompt 中捕获人物的情绪和个性特征，并将其描绘成视频中富裕表现力的角色。

The post by Bill Peebles (OpenAI) via X

Photo by Markus Spiske on Unsplash

Sora 的钻研建设在先前图像数据生成模型钻研的根底上。之前的钻研采纳了多种办法，如递归网络（recurrent networks）、生成反抗网络（GANs）、自回归 Transformers 和扩散模型，但通常专一于某些繁多类别的视觉数据、较短的视频或固定分辨率的视频。Sora 超过了这些限度，并且在生成视频的持续时间、长宽比和尺寸上失去了显著改良。在本节中，我将介绍反对这些改良的核心技术。

Vaswani et al. (2017),“Attention is all you need.”

Transformer 是一种神经网络架构，它彻底改变了自然语言解决（NLP）畛域。它由 Vaswani 等人于 2017 年首次提出。该模型极大地克服了传统递归神经网络（RNN）和卷积神经网络（CNN）存在的短板，作为一种翻新办法反对着当今的各种突破性技术。

Transformer 模型架构|Vaswani et al. (2017)

RNN 存在的问题：

长期依赖（long-term dependencies）问题：只管 RNN 在实践上能够通过工夫传递信息，但在实践中往往难以捕获长时间跨度的依赖关系。
并行处理存在限度：因为 RNN 的每一步计算都依赖于前一步的输入，因而必须进行程序解决（例如，按程序一一解决文本中的单词或句子），从而无奈利用古代计算机体系结构提供的并行处理劣势。这导致在大型数据集上进行训练效率低下。

CNN 存在的问题：

固定的感触野大小（receptive field size）：尽管 CNN 善于提取部分特色，但其固定的感触野大小限度了其在整个上下文中捕获长距离依赖关系（long-distance dependencies）的能力。
难以模仿自然语言的层次结构：应用 CNN 间接为语言的层次结构建模极具挑战性，可能不足以实现深层次的上下文了解。

Transformer 的新个性：

注意力机制：使得模型可能间接建模序列中任意地位之间的依赖关系，从而间接捕获长距离依赖和宽泛的上下文。
可能反对并行处理：因为输出数据是作为一个整体一次性解决的，因而实现了计算的高度并行化，大大放慢了在大型数据集上的训练速度。
可变的感触野（receptive field）：注意力机制使得模型可能依据须要动静调整“感触野”的大小。这意味着模型在解决某些工作或数据时，能够天然地将注意力集中在部分信息上，而在其余状况下，则能够思考更宽泛的上下文。

无关 Transformer 更具体的技术解释，请参阅以下链接：

https://towardsdatascience.com/transformers-141e32e69591

Dosovitskiy, et al. (2020),“An image is worth 16×16 words: Transformers for image recognition at scale.”

在这项钻研中，颠覆自然语言解决（NLP）的 Transformer 原理被利用于图像识别中，为视觉模型开拓了新的方向。

Token 和 Patch

在原始的 Transformer 论文中，token 次要代表单词或句子的一部分，剖析这些 token 之间的关系能够深刻了解句子的含意。在这项钻研中，为了将 token 的概念利用到视觉数据中，图像被划分成了 16×16 的小块（patch），并且每个 patch 都被视为 Transformer 中的一个“token”。这种办法使得模型可能学习到每个 patch 在整个图像中的关系，从而可能基于此辨认和了解整个图像。它超过了传统 CNN 模型在图像识别中应用的固定感触野大小的限度，可能灵便捕获图像中的任何地位关系。

ViT 模型概览|Dosovitskiy, et al. (2020)

无关 Vision Transformer (ViT) 更具体的技术解释，请参阅以下链接：

https://machinelearningmastery.com/the-vision-transformer-model/

Arnab, et al. (2021),“Vivit: A video vision transformer.”

ViViT 进一步扩大了 Vision Transformer 的概念，将其利用到视频的多维数据上。视频数据更加简单，因为它既蕴含动态图像信息（空间元素），又蕴含随工夫变动的动静信息（工夫元素）。ViViT 将视频合成为 patch，并将其视为 Transformer 模型中的 token。 引入 patch 后，ViViT 可能同时捕获视频中的动态和动静元素，并对它们之间的简单关系进行建模。

Tubelet (时空输入量) 嵌入图像 |Arnab, et al. (2021)

无关 ViViT 的更多具体技术阐明，请参阅以下链接：

https://medium.com/aiguys/vivit-video-vision-transformer-648a…

He, et al. (2022),“Masked autoencoders are scalable vision learners.”

这项钻研通过应用一种被称为带有掩码的自编码器（Masked Autoencoder）的自监督预训练方法，显著改善了传统上 与高维度和海量信息相干的大型数据集训练中 存在的 计算成本昂扬和低效率问题。

具体来说，通过对输出图像的局部内容进行掩码解决，网络被训练来预测暗藏局部的信息，从而更无效地学习图像中的重要特色和构造，并取得丰盛的视觉数据表征。这个过程使得数据的压缩（compression）和表征学习（representation learning）更加高效，升高了计算成本，并加强了不同类型的视觉数据以及视觉工作的多样性。

这项钻研的办法还与 BERT（Bidirectional Encoder Representations from Transformers）等语言模型的演变密切相关。尽管 BERT 通过 Masked Language Modeling（MLM）实现了对文本数据的深度上下文了解，但 He 等人则将相似的掩码技术利用于视觉数据，实现了对图像的更深层次了解和示意。

Masked Autoencoders|He, et al. (2022)

无关 MAE 的更多具体技术阐明，请参阅以下链接：

https://towardsdatascience.com/paper-explained-masked-autoenc…

Dehghani, et al. (2023),“Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.”

本钻研提出了 Native Resolution ViTransformer（NaViT），该模型旨在进一步扩大 Vision Transformer（ViT）的适用性，使其实用于任何长宽比或分辨率的图像。

传统 ViT 面临的挑战

Vision Transformer 引入了一种开创性的办法，通过将图像划分为固定大小的 patches，并将这些 patches 视为 tokens，将 transformer 模型利用于图像识别工作。然而，这种办法假如模型针对特定分辨率或长宽比进行了针对性的优化，因而对于不同尺寸或形态的图像，须要对模型进行调整。这是一个比拟大的限度，因为事实世界中的利用通常须要解决各种尺寸和长宽比的图像。

NaViT 的翻新

NaViT 可高效解决任何长宽比或分辨率的图像，容许它们间接输出模型而无需当时调整。Sora 也将这种灵活性利用于视频场景，通过无缝解决各种尺寸和形态的视频和图像，大大提高了模型的灵活性和适应性。

Dehghani, et al. (2023)

Sohl-Dickstein, et al. (2015),“Deep unsupervised learning using nonequilibrium thermodynamics.”

除了 Transformer，扩散模型也是反对 Sora 的骨干技术。这项钻研为扩散模型奠定了实践根底，扩散模型是一种利用非均衡热力学的深度学习模型。扩散模型引入了扩散过程的概念，该过程从随机噪声（没有任何模式（pattern）的数据）开始，逐步去除噪声，从而创立与理论图像或视频类似的数据。

例如，设想一下，一开始只有随机的点，而后逐步变成漂亮风光或人物的视频。这种办法起初被利用于图像和声音等简单数据的生成，促成了高质量生成模型的倒退。

去噪过程的图像|图片起源：OpenAI

Ho et al. (2020),“Denoising diffusion probabilistic models.”
Nichol and Dhariwal (2021),“Improved denoising diffusion probabilistic models.”

在 Sohl-Dickstein 等人（2015）提出的实践框架根底上，开发出了被称为 Denoising Diffusion Probabilistic Models（DDPM）的实用数据生成模型。这种模型在高质量图像生成畛域获得了特地显著的成绩，证实了扩散模型的有效性。

扩散模型对 Sora 的影响

通常状况下，要训练机器学习模型，须要大量标注数据（比方，通知模型“这是一张猫的图像”）。然而，扩散模型也能够从未被标注的数据中学习，使其可能利用互联网上大量的视觉内容来生成各种类型的视频。换句话说，Sora 能够通过观察不同的视频和图像，学习到“什么是一个失常视频的样子”。

无关 Diffusion Models 的更多具体技术阐明，请参阅以下链接：

https://towardsdatascience.com/diffusion-models-made-easy-841…

https://towardsdatascience.com/understanding-the-denoising-di…

Rombach, et al. (2022),“High-resolution image synthesis with latent diffusion models.”

这项钻研为利用扩散模型（diffusion models）合成高分辨率图像这一畛域做出了重大贡献。它提出了一种办法，与间接生成高分辨率图像相比，该办法通过利用隐空间（latent space）中的扩散模型，在保证质量的前提下大大降低了计算成本。换句话说，它通过对在隐空间（一个包容图像压缩表征的低维空间）中示意的数据进行编码并引入扩散过程，能够用更少的计算资源实现目标，而不是间接操作图像。

Sora 将这一技术利用于视频数据，将视频的工夫 + 空间数据压缩到较低维度的隐空间，而后将其合成为时空碎片（spatiotemporal patches）。这种高效的隐空间数据处理和生成能力，在使 Sora 可能更快地生成更高质量的视觉内容方面施展了至关重要的作用。

Image of visual encoding|Image Credit (OpenAI)

无关 Latent Diffusion Models 的更多具体技术阐明，请参阅以下链接：

https://towardsdatascience.com/paper-explained-high-resolutio…

Peebles and Xie. (2023),“Scalable diffusion models with transformers.”

这项钻研可能是实现 Sora 最要害的局部。正如 OpenAI 公布的技术报告所述，Sora 采纳的不是一般的 transformer，而是 diffusion transformer（DiT）。

Importantly, Sora is a diffusion transformer. (via OpenAI Sora technical report)

这项钻研引入了一种新的模型，用 Transformer 构造代替了扩散模型中罕用的 U-net 组件。这种构造通过 Transformer 对 latent patches 的操作实现 Latent Diffusion Model。这种办法可能更高效地解决 image patches，从而在无效利用计算资源的同时生成高质量的图像。与 2022 年 [Stability AI**]() 发表的 Stable Diffusion 不同，引入这种 Transformer 被认为有助于更天然地生成视频。

Diffusion Transformers 生成的图像|Peebles and Xie. (2023)

此外，值得注意的是，他们的验证后果证实了 DiT 具备可扩展性，为 Sora 的实现做出了重大贡献。具备可扩展性意味着模型的性能可能随着 Transformer 的深度 / 宽度（使模型更简单）或输出 token 数量的减少而进步。

Diffusion Transformers 的可扩展性|Peebles and Xie. (2023)

Gflops（计算性能）：计算机计算速度的度量单位，相当于每秒十亿次浮点运算。在本文中，网络复杂度（network complexity）通过 Gflops 进行掂量。
FID（Fréchet Inception Distance）：这是图像生成的评估指标之一，数值越小示意准确性越高。它通过测量生成图像和实在图像的特征向量之间的间隔来定量评估生成图像的品质。

Kaplan 等人（2020）和 Brown 等人（2020）曾经证实，在自然语言解决畛域曾经察看到了这一点（译者注：此处该当指的是“存在可扩展性”），这也是反对 ChatGPT 翻新胜利背地的要害个性。

Kaplan et al. (2020),“Scaling Laws for Neural Language Models.”
Brown, et al. (2020),“Language models are few-shot learners.”

与传统的扩散模型（diffusion models）相比，因为 Transformer 的劣势，它能以更低的计算成本生成高质量的图像，而这一显著特点表明，应用更多的计算资源甚至能够生成更高质量的图像。Sora 将这项技术利用于视频生成。

视频生成的可扩展性|Image Credit (OpenAI)

无关 DiT 的更多具体技术阐明，请参阅以下链接：

https://youtu.be/eTBG17LANcI

次要得益于 NaViT，Sora 可能生成 widescreen 1920x1080p 视频、vertical 1080×1920 视频以及介于两者之间的所有视频。这意味着它能够为各种设施类型创立任何分辨率的视觉内容。

目前，Sora 以 text-to-video 的格局实现视频生成，即通过文本提醒词给出指令生成视频。不过，从后面的钻研中不难看出，也能够应用现有的图片或视频作为输出，而不仅仅是文字。这样，Sora 就能够将图像制作成动画，或将现有视频的过来或将来设想成视觉内容并输入。

尽管不分明上述钻研如何直接参与其中，帮忙实现这一个性。但 Sora 能够生成具备 dynamic camera motion 成果（译者注：dynamic camera motion 表明视频不是静止不动的，而是随着工夫变动而挪动、旋转或扭转视角。）的视频。随着“摄像机”的挪动和旋转，人物和场景元素可能在三维空间中保持一致地挪动。

这篇博文具体介绍了 OpenAI 用于生成视频的通用视觉模型 Sora 背地的技术。一旦 Sora 可能向公众凋谢，让更多人应用，必将在寰球范畴内产生更加重大的影响。

这一冲破所带来的影响预计将涵盖视频创作的各个方面，但据预测，Sora 可能在视频畛域扎根后持续进军三维建模畛域。 届时，不仅对视频创作者产生影响，就连虚拟空间（如元宇宙）中的视觉效果制作也能很快由人工智能轻松生成。

下图曾经暗示了这种状况将来可能会呈现：

Martin Nebelong 通过 X 公布的与 Micael Rublof 产品相干的帖子

目前，Sora 被局部人认为“仅仅”是一个视频生成模型，但 Nvidia 的 Jim Fan 暗示它可能是一个数据驱动的物理引擎。人工智能有可能从大量真实世界的视频和（尽管没有明确提到）须要思考物理行为的视频（如空幻引擎中的视频）中了解物理法则和景象。 如果是这样，那么在不久的未来呈现 text-to-3D 模型的可能性也是十分高的。

Jim Fan’s intriguing post via X

Thanks for reading!

🚢🚢🚢欢送小伙伴们退出 AI 技术软件及技术交换群，追踪前沿热点，共探技术难题~

END

本文经原作者受权，由 Baihai IDP 编译。如需转载译文，请分割获取受权。

原文链接：

https://towardsdatascience.com/how-openais-sora-is-changing-t…

关于人工智能:化是渐化变是顿变一窥-OpenAI-Sora-相关技术的演进

目录

01 Sora 的简略介绍

依据事实世界生成简单场景

02 它背地的相干技术和相干钻研有哪些？

2.1 Transformer

2.2 Vision Transformer (ViT)

2.3 Video Vision Transformer (ViViT)

2.4 Masked Autoencoders (MAE) 带有掩码的自编码器

2.5 Native Resolution Vision Transformer (NaViT)

2.6 Diffusion Models

2.7 Latent Diffusion Models

2.8 Diffusion Transformer (DiT)

03 这些钻研根底加上 OpenAI 的致力独特造就了 Sora

3.1 可变的视频时长、分辨率、长宽比

3.2 应用图像和视频作为 Prompt

3.3 3D consistency

04 瞻望 Sora 的将来

Just My Socks（注册教程内含优惠码）

关于人工智能:化是渐化变是顿变一窥-OpenAI-Sora-相关技术的演进

目录

01 Sora 的简略介绍

依据事实世界生成简单场景

02 它背地的相干技术和相干钻研有哪些？

2.1 Transformer

2.2 Vision Transformer (ViT)

2.3 Video Vision Transformer (ViViT)

2.4 Masked Autoencoders (MAE) 带有掩码的自编码器

2.5 Native Resolution Vision Transformer (NaViT)

2.6 Diffusion Models

2.7 Latent Diffusion Models

2.8 Diffusion Transformer (DiT)

03 这些钻研根底加上 OpenAI 的致力独特造就了 Sora

3.1 可变的视频时长、分辨率、长宽比

3.2 应用图像和视频作为 Prompt

3.3 3D consistency

04 瞻望 Sora 的将来

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）