乐趣区

关于人工智能:OpenAI-Sora-关键技术详解揭秘时空碎片-Spacetime-Patches-技术

编者按:近日,OpenAI 公布其首个视频生成模型“Sora”,该模型生成的视频内容能够呈现出多个角色、特定动作以及简单场景,为构建可能了解和模仿事实世界的人工智能模型奠定了根底。

本文解析的重点即是 Sora 背地的核心技术 Spacetime Patches,作者认为该技术通过翻新的时空数据建模办法,让 Sora 学会预测时空维度上事件和对象的变动、静止和互动,从而建设起视频世界的物理模型,生成极其真切的视频。

这的确是生成模型畛域的里程碑,也是一个 AGI 的里程碑。编者置信,没准有一天,哆啦 A 梦的二次元口袋照相机也可能成为事实。

作者 | Vincent Koc

编译 | 岳扬

人工智能如何将动态图像转换为动静、真切的视频?OpenAI 的 Sora 通过创新性地应用时空碎片技术(spacetime patches)给出了一个答案。

在疾速倒退的生成模型畛域,OpenAI 的 Sora [1]是一个重要的里程碑,无望重塑咱们对视频生成的了解和意识。本文将解读 Sora 背地的技术 [2] 以期激发新一代模型在图像、视频和 3D 内容创立方面的后劲。

OpenAI 应用以下提醒词生成生成了一段视频:A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.  —— 通过 Sora 生成的视频内容简直达到了无以伦比的真切水平。因为 Sora 正在进行测试,残缺模型尚未齐全向公众公布。

01 Sora 的独特办法如何扭转视频生成的形式

在生成模型(generative models)畛域的倒退过程中,咱们见证了从生成式反抗网络(GAN)到自回归(auto-regressive)和扩散模型(diffusion models)等多种办法的演变,它们都有各自的劣势和局限性。Sora 通过采纳新的模型技术和凭借其高度灵活性带来了范式转变,可能解决多种多样的视频时长(duration)、宽高比(aspect ratio)和分辨率(resolution)。

Sora 联合了扩散原理(diffusion)和 transformer 架构,提出了 diffusion transformer model,并具备如下个性:

  • 文字到视频:这种性能咱们应该曾经见到过很屡次了
  • 图像到视频:为动态图像赋予生命
  • 视频到视频:将视频的格调转换为其余款式
  • 批改视频工夫:扩大和缩短视频
  • 创立无缝循环视频:创立看起来有限循环的平铺视频(译者注:在视频编辑畛域,Tile(平铺)是一个专业术语,指的是将一个视频片段复制并拼接,反复排列造成一个新的视频画面的技术。)
  • 图像生成:尽管只是单帧静止画面,然而称得上一部“单帧电影”(分辨率高达 2048 x 2048)
  • 生成任何分辨率的视频:从 1920 x 1080 到 1080 x 1920,包罗万象
  • 模仿虚拟世界:像 Minecraft 和其余视频游戏
  • 创立视频:最长 1 分钟,蕴含多个短视频

设想一下,你正在一个厨房里。像 Pika[3]和 RunwayML[4]这样的传统视频生成模型就像严格遵循食谱的厨师,他们可能制作美味佳肴(视频),但受限于他们所知的食谱(算法)。这些“厨师”可能专攻制作蛋糕(短视频)或意大利面(某类型视频),应用特定的“食材”(数据格式)和“烹调技术”(模型架构)。

相比之下,Sora 像是全能大厨,对食品风味的形成与变动一目了然。Sora 不仅能遵循食谱,还继续发明新的菜式。 数据和模型架构的灵活性,让 Sora 能生产出一系列高质量的视频,堪比巨匠厨艺的多变与精湛。

02 摸索 Sora 秘方的外围:Spacetime Patches 技术

Spacetime Patches 是 Sora 翻新的外围,它建设在谷歌 DeepMind 新近对 NaViT [5]和 ViT(Vision Transformers)的钻研根底之上,其根底是一篇 2021 年的论文《An Image is Worth 16×16 Words[6]》。

“Vanilla”Vision Transformer 架构 —— 图片起源:Dosovitskiy 等,2021[6]

在传统的 Vision Transformers 中,咱们应用一系列图像 “patches” 来训练模型进行图像识别,而不是像训练 language transformers 那样应用单词来进行训练。通过 “patches”,咱们能够解脱卷积神经网络对图像处理的解放。

如何将帧 / 图像划分为 patches —— 图片起源:Dehghani 等,2023[5]

然而,Vision transformers 受到图像训练数据的限度,这些数据的大小和长宽比都是固定的,这就限度了图像的品质,并须要对图像进行大量的预处理。

切割视频时态数据的可视化 —— 材料起源:kitasenjudesign[7]

通过将视频解决为 patches 序列,Sora 放弃了原始的长宽比和分辨率,这与 NaViT 解决图像的形式相似。这种保留对于捕获视觉数据的实在实质至关重要,可使模型从更精确的世界表征中学习,从而赋予 Sora 其近乎魔法的准确性。

Spacetime Patching 处理过程的可视化 —— 图片起源:OpenAI(Sora)

通过这种办法,Sora 能够高效地解决各种视觉数据,而无需调整大小或进行填充等预处理步骤。这种灵活性确保了每一条数据都有助于模型的了解,就像厨师应用各种配料来晋升菜肴的风味一样。

通过 Spacetime Patching 技术具体而灵便地解决视频数据,为 Sora 领有准确的物理模仿和三维一致性等简单个性奠定了根底。 这些能力对于创立不仅看起来真切,而且合乎世界物理规定的视频至关重要,让咱们看到了人工智能创立简单、动静视觉内容的后劲。

03 喂养 Sora:多样化数据在训练中的作用

生成模型的体现与训练数据的品质和多样性密不可分。 现有的视频模型传统上是在更受限的数据集上训练的,时长较短,指标较窄。

Sora 的训练数据集宽泛多样,蕴含不同长度、分辨率和长宽比的视频与图像。其重现 Minecraft 等数字世界的能力[8],极有可能排汇了来自 Unity、Unreal 等零碎的模仿镜头数据,以捕获更丰盛视角和格调的视频内容。这让 Sora 相似 GPT 语言模型,达到视频生成的“全能”境界。

丰盛数据训练使 Sora 可能深刻理解简单动力学,生成既多样又高质量的内容。 这种办法模拟了大语言模型在多样化文本上的训练形式,将相似理念利用于视觉数据,以取得通用能力。

应用可变 patches 的 NaVit vs. 传统的 Vision Transformers —— 图片起源:Dehghani 等,2023[5]

正如 NaViT 模型通过将来自不同图像的多个 patches 打包到单个序列中,可能显著进步训练效率和性能一样,Sora 利用时空碎片(Spacetime Patching)实现了在视频生成场景中相似的生成效率。这种办法能够更无效地学习宏大的数据集,进步模型生成高保真视频的能力,同时与现有模型架构相比还能够显著升高所需的计算量。

04 让模仿的物理世界栩栩如生:Sora 对三维空间和视频连贯性的掌控

三维空间以及物体的静止和互动具备逻辑性和一致性是 Sora 演示中的一大亮点。通过对大量视频数据进行训练,而不对视频进行调整或预处理,Sora 能够学习对物理世界进行建模,而且其准确性令人印象粗浅,因为它可能以原始模式消化训练数据。

它能生成数字世界和视频,在这些视频中,其中的物体和角色在三维空间中挪动和互动,即便在它们被遮挡或来到画面时也能放弃连贯性,令人信服。

05 展望未来:Sora 对生成模型的启发

Sora 为生成模型建立一种新的高标准。这种技术极有可能激发开源社区持续摸索视觉生成畛域的新边界,驱动新一代生成模型的倒退,突破创造力和内容真实性的限度。

Sora 的征程才刚刚开始,正如 OpenAI 所说:“扩充视频生成模型的规模是建设物理世界通用模拟器的一条大有可为的路线。”

Sora 技术与最新的 AI 钻研和实际利用的交融,预示着生成模型的光明前景。随着这些技术的继续演变,必将从新定义咱们与数字内容的互动,使高保真、动静视频生成变得更加便捷和多样。

Thanks for reading!

END

参考资料

[1]https://openai.com/sora

[2]https://openai.com/research/video-generation-models-as-world-…

[3]https://pika.art/home

[4]https://runwayml.com/ai-tools/gen-2/

[5]https://arxiv.org/abs/2307.06304

[6]https://arxiv.org/abs/2010.11929

[7]https://twitter.com/kitasenjudesign/status/1489260985135157258

[8]https://techcrunch.com/2024/02/15/openais-sora-video-generati…

原文链接:

https://towardsdatascience.com/explaining-openai-soras-spacet…

退出移动版