关于深度学习:视频生成领域的发展概述从多级扩散到LLM

7次阅读

共计 7151 个字符,预计需要花费 18 分钟才能阅读完成。

2023 年是语言模型 (llm) 和图像生成技术激增的一年,然而视频生成受到的关注绝对较少。往年刚到 2 月份,OpenAI 就公布了一个惊人的视频生成模型 Sora。尽管它的架构没有披露,然而通过总结现有的视频生成畛域可能能对 Sora 的构架有所了解。

在这篇文章中,咱们将整顿视频生成在最近几年是倒退详情,模型的架构是如何倒退的,以及当初面临的突出问题。

咱们以时间轴看作是一个察看视频生成模型演变的旅程。这将帮忙咱们了解为什么模型是这样设计的,并为将来的钻研和利用工作提供见解。

2022 年 4 月:Video Diffusion Model

从谷歌在利用扩散模型生成视频方面的开创性工作开始,能够认为是这一畛域疾速倒退开始。尽管这篇论文没有具体介绍,但它是创立 T2V(文本 - 视频)扩散模型的首批尝试之一。

模型利用扩散模型从文本形容生成视频,VDM 的架构利用 3D U-Net 和工夫注意力来生成跨帧的统一图像。该模型能够在视频和图像上进行联结训练。它是通过移除每个工夫注意力块内的注意力操作来实现的,并为这个输出固定注意力矩阵。

模型应用了未公开的 1000 万个带字幕的视频数据集。如果你查看原论文可能会发现,论文十分的短,所以这项工作可能是概念性验证演示,并没有什么实际意义,然而不能不说它是一个开创性的钻研。

2022 年 9 月:Make-a-Video

这是 Meta 在 T2V(文本 - 视频)方面的开创性工作。模型是在开源的非配对视频数据集上进行的训练。

它扩大了 T2I (Diffusion Text-to-Image)模型,通过整合时态层来实现文本到视频的生成。然而与谷歌的那个模型的最大变动是级联。作者应用了一系列工夫和空间超分辨率扩散模型来进步分辨率和帧率。论文阐明如下:

“级联的不同组成部分是独立训练的。解码器、先验和两个超分辨率模块只应用图像进行训练,而不应用任何文本。根本的 T2I 模型能够失去文本输出,并通过文本 - 图像对进行训练,而无需进一步的视频训练。”

另一个重要的步骤是 2 +1D。该模型利用“伪三维”卷积办法更无效地整合工夫信息。2+1D 办法能够更高效的计算策略模仿全 3D 卷积和注意力机制 (间接将视频作为 3D 数据进行操作) 的成果。它首先在每个帧上别离利用规范 2D 卷积,而后沿着时间轴利用 - 1D 卷积,在帧之间共享信息。如果你对视频了解比拟敢趣味,那么 2 +1D 是过后通用的办法。

论文还蕴含了一个精心策划的开源数据集组合:LAION-5B 的 2.3B 子集,其中文本为英语 + HD-VILA-100M 的 10M 子集 + WebVid-10M

使这篇论文当初曾经成为一篇根底论文,起初被许多新办法援用和比拟。

2022 年 10 月:Imagen Video

“如果咱们有一个级联,咱们能做一个更大的级联吗?”这就是你的答案。

谷歌的这个新模型外部有 7 个子模型: 文本编码器,根底模型 (视频 U -Net),3 个空间(SSR) 和 2 个工夫 (TSR) 超分辨率模型。所有 7 个模型都能够并行训练。与之前的 Make-a-Video 一样,SSR 模型减少了所有输出帧的空间分辨率,而 TSR 模型通过填充输出帧之间的两头帧来减少工夫分辨率。

所有的级联模型都应用 + 1 工夫维度。这意味着它们都适应视频格式,因而超分辨率 (SSR) 能够思考视频的工夫方面,而不会产生“闪动的伪影”。为了计算效率,只有根本模型在所有帧中应用工夫注意力,而 SSR 和 TSR 应用工夫卷积(计算成本更低)。

2023 年 3 月:NUWA-XL Video

“Diffusion over Diffusion”能够生成十分长的剪辑,并且具备绝对较好的工夫一致性。该模型应用递归,而不是级联来插值帧。

这里的外围概念是“扩散之上的扩散”——一种分层的、从粗到精的视频生成办法,从全局模型开始建设关键帧,而后通过部分扩散模型逐渐填充细节。这使得视频片段的并行生成成为可能。

作者将生成 1024 帧的工夫从 7.55 分钟缩小到 26 秒(但 gpu 配置没有公开)。

要害模块是带掩码工夫扩散 (MTD),“掩码”一词意味着它解决全局生成过程(不足初始 / 完结视频帧援用) 和部分细化过程(应用现有帧作为领导)。

还记得我提到的 ” 潜在表征 ” 吗? 作者利用了他们称之为 T -KLVAE 的潜在编码器。论文形容如下:

T-KLVAE 利用事后训练的减少了工夫卷积和留神层的图像 KLVAE(潜在编码器),联合工夫动静的同时保留空间信息。

T-KLVAE 将视频编码为紧凑的维度示意,从而升高了计算复杂度。

另外就是作者提到模型是间接在长电影 (最多 3376 帧) 上训练的。FlintstonesHD 是~6M 帧的 1 高清动画数据集,这个模型在一次运行中生成了整个卡通剧集,

2023 年 4 月 Video LDM

到了这个工夫节点就开始应用 SD (StableDiffusion)了。尽管在 NUWA-XL 中看到了潜在空间的技巧,但这篇论文采纳了所有人都喜爱的 StableDiffusion 并将其转换为 T2V 模型。ldm 是图像生成的首选架构,当初是时候让它们在视频生成中大放光芒了。

Video LDM 通过工夫维度扩大了传统 LDM 的潜在空间。该流程很简略:

1、仅在图像上预训练 LDM (StableDiffusion);

2、将工夫维度引入潜在空间并对视频数据集进行微调。

3、微调图像上采样器,制作视频超分辨率模型。

LDM 的应用进步了计算效率,为生成高分辨率视频 (1280 x 2048) 开拓了路线。

2023 年 6 月:AnimateDiff

这是视频预训练 ldm 最乏味的利用之一,也是咱们目前看到 SD 中让视频动起来的最罕用的办法。它想法很简略——模型从视频中学习静止的先验,使堆栈图像动画化。这些静止先验能够插入到任何 StabelDiffusion 模型的顶部,所以任何 SD 模型无需从新训练。

AnimateDiff 的外围是一个在视频数据集上训练的 Spatio-Temporal Transformer 静止建模模块。通过一个称为 Inflation 的过程将该模块集成到解冻的 T2I 模型 (如 Stable Diffusion) 中,使原始模型可能解决 5D 视频张量(批次×通道×帧×高度×宽度)。

“Spatio-Temporal Transformer”由沿着时间轴的几个自注意力块组成,应用正弦地位编码来编码动画中每一帧的地位。

通过将每个 2D 卷积和留神层转换为仅限空间的伪 3d 层,以 batch x channels × frames × height × width 形态的 5D 视频张量作为输出

这是一项了不起的工作,目前的开源库还在更新新版本,例如反对 SD-XL 和 Domain Adapter LoRA。如果你想应用 SD 模型生成视频,能够先用它,因为十分好用。

2023 年 9 月:Show-1

咱们能合并潜在表征和像素表征吗?

Show- 1 同时利用基于像素和基于潜在的扩散模型:

它具备 3 个基于像素的扩散模型的级联构造 (DeepFloyd 作为关键帧的根底 T2I 模型,一个工夫插值和一个分辨率插值) 和 1 个 LDM 作为超分辨率模型。

该模型从基于像素的视频扩散模型 (vdm) 开始,创立与文本提醒密切相关的低分辨率视频。而后采纳基于潜在的 vdm 将低分辨率输入降级为高分辨率视频。

作者认为基于像素的是辨认静止的好办法,而 latent 是超分辨率的专家。他们通过展现优于 VideoLDM 或 Make-a-Video 的评估指标来反对他们的论点

这篇论文提出了一个十分乏味的问题: 潜在示意对视频无利吗? 最初,你会看到一个意想不到的答案。

2023 年 11 月:Stable Video Diffusion

这应该是目前最驰名的开源 T2V 模型。只管与 Video LDM 有很多相似之处,但 SVD 最大的价值在于数据管理。作者详细描述了他们如何建设一个大型视频数据集。

不要把这项工作当作一个新的模型,它答复了所有这些闭源数据集是如何创立和治理的问题。

SVD 与 Video LDM 具备雷同的架构:

1、模型首先在图像 - 文本对上训练 sd2.1。

2、插入工夫卷积和留神层,使模型适应视频生成,对大量视频数据进行训练。

3、在一小部分高质量视频上对模型进行微调

这里的次要重点是数据处理,创立精心策划的视频文本对。它从切割检测开始,以避免忽然切割和淡出影响合成视频。每个视频片段应用三种合成字幕办法进行正文:

CoCa(图像字幕): 正文每个剪辑的两头帧。

V-BLIP: 提供基于视频的题目形容。

基于 LLM 的摘要: 联合前两个题目来创立剪辑的扼要形容。

最初,他们通过测量均匀光流来过滤动态场景,并应用 OCR 去除含有适量文本的片段。

2023 年 12 月:VideoCrafter-v2

论文蕴含了一个十分具体的训练过程和作者如何克服应用高质量生成图像的低质量视频的限度的形容。

模型的构造非常简单,没有帧插值或上采样,与 VideoCrafterV1 和其余 T2V ldm 相似的架构,联合了从 SD 2.1 初始化权重的空间模块和初始化为零的工夫模块。

首先训练一个的视频模型。而后只对该模型的空间模块进行微调,生成高质量的图像。在论文中详细描述了的试验设置和对微调 T2I 不同办法,举荐浏览。

2023 年 12 月:VideoPoet

VideoPoet 是所有论文中最独特的一篇。与依赖扩散的传统办法不同,VideoPoet 利用自回归 LLM 来生成视频甚至声音。

这个非凡模型的外部局部十分乏味,但对于与多模式 LLM 一起工作的人来说可能十分相熟。作者应用了一个仅解码器的 LLM 架构,可能将图像、视频和音频模式作为离散的令牌。

为了创立这样的令牌,应用 magvitv -v2 进行联结图像和视频令牌化,应用 SoundStream 进行音频令牌化,将第一帧和随后的 4 帧块编码为令牌进行示意。

因为可能解决不同模式的输出,这使得模型可能执行宽泛的视频生成工作: 文本到视频、图像到视频、视频款式化和视频到音频工作,它还能够生成长视频。

模型能够通过调节视频的最初一秒来预测下一秒,从而生成更长的视频,容许创立任何冀望持续时间的视频,并具备强对象身份保留。

这个模型提出了另一个问题——咱们真的能够利用 LLM 吗? 咱们真的应该应用扩散吗?

2024 年 1 月:Lumiere

在最新的工作中,Google 认为基于像素的扩散是可行的办法(如果你有钱资源)

这是目前基于 T2V 像素的扩散模型的最新进展。最新的具体技术论文。尽管最近的大部分工作都集中在潜在扩散上,但这项工作在某种意义上从新思考了级联模型。

该模型由一次生成所有帧的根本模型 (STUnet) 和具备工夫感知的空间超分辨率 (SSR) 模型组成(没有帧插值),次要的是时空 u 网络(STUnet)。援用论文内容:

该架构扩大了 imagent2i 模型,当初能够对输出信号进行空间和工夫上的下采样。这包含在文本到图像架构中交织的工夫块,以及插入工夫上采样和下采样模块

另一个显著的特点是它从新思考级联模型。模型联合了重叠窗口的超分辨率模型和 MultiDiffusion 来混合重叠局部,将分辨率进步到 1024×1024。所有这些都使模型可能在一系列工作上显示 SOTA 品质,包含图像到视频、视频绘制和格调化生成。

作者认为 STUnet 和多扩散的思维能够利用于 ldm。

Sora 和将来瞻望

在 Sora 被 OpenAI 公布后,你也质疑事实吗? 他公布的技术论文看起来更像一篇文章,并没有披露具体的架构。咱们能够揣测 LLM 与通过大量数据训练的扩散模型的某种交融。

这引出了咱们上面的探讨:

扩散是最好的办法吗?

咱们看到以后的视频模型是基于扩散的。根本思维是生成帧,而后在帧之间创立工夫统一的动画。但咱们也看到 llm 生成令牌,而后解码成图像甚至声音。

往年咱们会看到新的突破性架构吗?

这里只有模型作品是针对长视频生成的。次要是因为扩散模型不足对“变换视图”的了解——当摄像机从一个视角跳到另一个视角时扩散模型无奈对其进行了解。这就是为什么大多数模型都是通过过滤这些变动来去除“闪动”——当模型在未过滤的数据上训练时,图像在视频两头呈现的变动。

从哪里获取数据?

当初的次要问题是从哪里取得高质量的数据。它次要是对于正文数据,因为收集视频并对其进行正文须要花钱,大多数实验室都累赘不起。咱们曾经看到了一些模型如何应用生成的图像数据集来克服这个问题。往年咱们会看到一个新的“万能”视频数据集吗?

下面说的都是目前的问题,心愿在 2024 年能够失去解决,最初上面是本文的援用

[1] J. Ho, T. Salimans, A. Gritsenko, W. Chan, M. Norouzi, D. J. Fleet,“Video Diffusion Models”(2022), arXiv:2204.03458.

[2] U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, Y. Taigman,“Make-a-Video: Text-to-Video Generation without Text-Video Data”(2022), arXiv:2209.14792.

[3] J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet, T. Salimans,“Imagen Video: High-definition Video Generation with Diffusion Models”(2022), arXiv:2210.02303.

[4] S. Yin, C. Wu, H. Yang, J. Wang, X. Wang, M. Ni, Z. Yang, L. Li, S. Liu, F. Yang, J. Fu, G. Ming, L. Wang, Z. Liu, H. Li, N. Duan,“NUWA-XL: Unified Generative Pre-training for Visual Synthesis”(2023), arXiv:2303.12346.

[5] A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, K. Kreis,“Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”(2023), arXiv:2304.08818.

[6] Y. Guo, C. Yang, A. Rao, Z. Liang, Y. Wang, Y. Qiao, M. Agrawala, D. Lin, B. Dai,“AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning”(2023), arXiv:2307.04725.

[7] D. J. Zhang, J. Z. Wu, J.-W. Liu, R. Zhao, L. Ran, Y. Gu, D. Gao, M. Z. Shou,“Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation”(2023), arXiv:2309.15818.

[8] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, V. Jampani, R. Rombach,“Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets”(2023), arXiv:2311.15127.

[9] H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, Y. Shan,“VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models”(2024), arXiv:2401.09047.

[10] D. Kondratyuk, L. Yu, X. Gu, J. Lezama, J. Huang, R. Hornung, H. Adam, H. Akbari, Y. Alon, V. Birodkar, Y. Cheng, M.-C. Chiu, J. Dillon, I. Essa, A. Gupta, M. Hahn, A. Hauth, D. Hendon, A. Martinez, D. Minnen, D. Ross, G. Schindler, M. Sirotenko, K. Sohn, K. Somandepalli, H. Wang, J. Yan, M.-H. Yang, X. Yang, B. Seybold, L. Jiang,“VideoPoet: Autoregressive Video Generation”(2023), arXiv:2312.14125.

[11] O. Bar-Tal, H. Chefer, O. Tov, C. Herrmann, R. Paiss, S. Zada, A. Ephrat, J. Hur, G. Liu, A. Raj, Y. Li, M. Rubinstein, T. Michaeli, O. Wang, D. Sun, T. Dekel, I. Mosseri,“Lumiere: Enhancing Video Generation with Pixel-based Diffusion Models”(2024), arXiv:2401.12945.

https://avoid.overfit.cn/post/6242680847f94e6b8ef3eb2217ce1f89

作者:Nikita Kiselov

正文完
 0