关于人工智能:ECCV2022港中文MM-Lab证明Frozen的CLIP-模型是高效视频学习者

1次阅读

共计 6355 个字符,预计需要花费 16 分钟才能阅读完成。

ECCV2022| 港中文 MM Lab 证实 Frozen 的 CLIP 模型是高效视频学习者

【写在后面】

视频辨认始终以端到端学习范式为主——首先应用预训练图像模型的权重初始化视频辨认模型,而后对视频进行端到端训练。这使视频网络可能从预训练的图像模型中受害。然而,这须要大量的计算和内存资源来微调视频,并且间接应用预训练的图像特色而不微调图像骨干的代替办法会导致后果不佳。侥幸的是,Contrastive VisionLanguage Pre-training (CLIP) 的最新进展为视觉辨认工作的新门路铺平了路线。这些模型在大型凋谢词汇图像 - 文本对数据上进行了预训练,学习了具备丰盛语义的弱小视觉示意。在本文中,作者提出了高效视频学习 (EVL)——一种用于间接训练具备解冻 CLIP 特色的高质量视频辨认模型的无效框架。具体来说,作者采纳了一个轻量级的 Transformer 解码器并学习了一个查问 token,以从 CLIP 图像编码器动静收集帧级空间特色。此外,作者在每个解码器层中采纳部分工夫模块来发现来自相邻帧及其注意力图的工夫线索。作者表明,只管应用解冻的骨干进行训练很无效,但本文的模型在各种视频辨认数据集上学习了高质量的视频示意。

1. 论文和代码地址

Frozen CLIP Models are Efficient Video Learners

论文地址:https://arxiv.org/abs/2208.03550

代码地址:https://github.com/opengvlab/efficient-video-recognition

2. Motivation

作为视频了解的根本组成部分,学习时空示意近年来依然是一个沉闷的钻研畛域。自深度学习时代开始以来,曾经提出了许多架构来学习时空语义,例如传统的双流网络,3D 卷积神经网络和时空 Transformer。因为视频是高维的并且体现出大量的时空冗余,因而从头训练视频辨认模型效率非常低,可能会导致性能降落。直观地说,视频片段的语义意义与其每个独自的帧高度相干。先前的钻研表明,图像识别的数据集和办法也能够使视频辨认受害。因为图像和视频辨认之间的密切关系,作为惯例实际,大多数现有的视频辨认模型都利用预训练的图像模型进行初始化,而后以端到端的形式从新训练所有参数以进行视频了解。

然而,端到端微调机制有两个次要毛病。首先是效率。视频辨认模型须要同时解决多个帧,并且在模型大小方面比其图像对应物大几倍。微调整个图像骨干不可避免地会产生微小的计算和内存耗费老本 。因而,这个问题限度了在无限计算资源下用于视频辨认的一些最大图像架构的采纳和可扩展性。第二个问题在迁徙学习的背景下被称为 灾难性忘记 。在对上游视频工作进行端到端微调时,如果上游视频信息量有余,可能会毁坏从图像预训练中学习到的弱小视觉特色并取得低于规范的后果。这两个问题都表明,从预训练的图像模型进行端到端微调并不总是一个现实的抉择,这须要一种更无效的学习策略来将常识从图像转移到视频。
通过比照学习、mask 视觉建模和传统的监督学习,在学习高质量和通用的视觉示意方面曾经做出了相当大的致力。MAE 等 mask 视觉建模办法训练编码器 - 解码器架构以重建来自潜在示意和 mask token 的原始图像。基于监督学习的办法应用一组固定的预约义类别标签训练图像骨干。因为它们通常是单模训练的,因而它们都不足示意丰盛语义的能力。相比之下,诸如 CLIP 之类的比照视觉语言模型是应用大规模凋谢词汇图像 - 文本对进行预训练的。他们能够学习与更丰盛的语言语义相一致的更弱小的视觉示意。CLIP 的另一个劣势是其有前途的特色可迁移性,这为各种上游工作的一系列迁徙学习办法奠定了松软的根底。

上述起因启发作者从新思考图像和视频特色之间的关系,并设计无效的迁徙学习办法来利用解冻的 CLIP 图像特色进行视频辨认。为此,作者提出了一种基于轻量级 Transformer 解码器的高效视频学习 (EVL) 框架。EVL 与其余视频辨认模型的区别如上图左所示。具体来说,EVL 学习一个查问 token,以从 CLIP 图像编码器的每一层动静收集帧级空间特色。最重要的是,作者引入了一个部分工夫模块,在工夫卷积、工夫地位嵌入和跨帧注意力的帮忙下收集工夫线索。最初,应用全连贯层来预测视频类别的分数。作者进行了宽泛的试验来证实本文办法的有效性,并发现 EVL 是一种简略无效的 pipeline,具备更高的准确性,但训练和推理老本更低,如上图右所示。本文的奉献如下:

  • 指出了以后端到端视频了解学习范式的毛病,并提出利用解冻的 CLIP 图像特色来促成视频辨认工作
  • 开发了 EVL——一种从图像到视频辨认的高效迁徙学习 pipeline,其中作者在固定的可迁徙图像特色之上训练了一个轻量级的 Transformer 解码器模块,以执行时空交融。
  • 大量试验证实了 EVL 的有效性和效率。与端到端微调相比,它产生的训练工夫要短得多,但性能却具备竞争力。这使得具备均匀计算资源的更宽泛社区能够拜访视频辨认这个工作。

3. 办法

本文的图像到视频迁徙学习 pipeline 的三个次要指标是(1)总结多帧特色和推断视频级预测的能力;(2) 跨多个帧捕捉静止信息的能力;(3) 效率。因而,作者提出了高效视频学习 (EVL) 框架,将在上面具体介绍。

3.1 Overall Structure

如上图所示,EVL 的整体构造是固定 CLIP 骨干之上的多层时空 Transformer 解码器。CLIP 骨干从每个帧中独立提取特色。而后将帧特色重叠以造成时空特色量,用工夫信息调制,并馈入 Transformer 解码器。Transformer 解码器执行多层特色的全局聚合:学习视频级分类 token [CLS] 作为查问,并将来自不同骨干块的多个特色量作为键和值馈送到解码器块。线性层将最初一个解码器块的输入投影到类预测。模式上,Transformer 解码器的操作能够示意如下:

$$
\begin{aligned} \mathbf{Y}_{i} &=\operatorname{Temp}_{i}\left(\left[\mathbf{X}_{N-M+i, 1}, \mathbf{X}_{N-M+i, 2}, \ldots, \mathbf{X}_{N-M+i, T}\right]\right) \\ \tilde{\mathbf{q}}_{i} &=\mathbf{q}_{i-1}+\operatorname{MHA}_{i}\left(\mathbf{q}_{i-1}, \mathbf{Y}_{i}, \mathbf{Y}_{i}\right) \\ \mathbf{q}_{i} &=\tilde{\mathbf{q}}_{i}+\operatorname{MLP}_{i}\left(\tilde{\mathbf{q}}_{i}\right) \\ \mathbf{p} &=\operatorname{FC}\left(\mathbf{q}_{M}\right) \end{aligned}
$$

其中 $\mathbf{X}_{n, t}$ 示意从 CLIP 骨干的第 n 层提取的第 t 帧的帧特色,$\mathbf{Y}_{i}$ 示意输出到 Transformer 解码器的第 i 层的工夫调制特色量。$\mathbf{q}_{i}$ 是逐渐细化的查问 token,$\mathbf{q}_{0}$ 作为可学习参数,$\mathbf{p}$ 是最终预测。N、M 别离示意骨干图像编码器和时空解码器中的块数。MHA 代表 multi-head attention,三个参数别离是 query、key 和 value。Temp 是工夫建模,它产生由更细粒度的工夫信息调制的特色 token。

3.2 Learning Temporal Cues from Spatial Features

尽管 CLIP 模型生成弱小的空间特色,但它们齐全不足工夫信息。只管 Transformer 解码器可能进行加权特色聚合,这是一种全局工夫信息的模式,但细粒度和部分工夫信号也可能对视频辨认有价值。因而,作者引入了以下工夫模块来对这些信息进行编码,而后再将特色输出到 Transformer 解码器中。

Temporal Convolution

工夫深度卷积可能捕捉沿工夫维度的部分特色变动,并且已知是高效和无效的。模式上,这个卷积编码的特色写成 $\mathbf{Y}_{\text {conv}}$,并且

$$
\mathbf{Y}_{\mathrm{conv}}(t, h, w, c)=\sum_{\Delta t \in\{-1,0,1\}} \mathbf{W}_{\mathrm{conv}}(\Delta t, c) \mathbf{X}(t+\Delta t, h, w, c)+\mathbf{b}_{\text {conv}}(c)
$$

Temporal Positional Embeddings

作者学习了一组维度为 C 的 T 个向量,示意为 $\mathbf{P} \in \mathbb{R}^{T \times C}$,作为工夫地位嵌入。图像特色依据它们的工夫地位 t 与向量之一相加,示意为:

$$
\mathbf{Y}_{\operatorname{pos}}(t, h, w, c)=\mathbf{P}(t, c)
$$

尽管工夫卷积也能够隐式捕捉工夫地位信息,但通过使不同工夫的类似特色可辨别,地位嵌入更加明确。地位嵌入对于近程工夫建模也更弱小,为此必须重叠多个卷积块以实现大的感触野。

Temporal Cross Attention.

另一个乏味但常常被忽视的工夫信息起源是注意力图。因为注意力图反映了特色对应关系,计算两帧之间的注意力图天然会揭示对象静止信息。更具体地说,作者首先应用 CLIP 中的原始查问和要害投影构建相邻帧之间的注意力图:

$$
\mathbf{A}_{\text {prev}}(t)=\operatorname{Softmax}\left((\mathbf{Q X}(t))^{T}(\mathbf{K X}(t-1))\right)\\\mathbf{A}_{\text {next}}(t)=\operatorname{Softmax}\left((\mathbf{Q X}(t))^{T}(\mathbf{K X}(t+1))\right)
$$

为简略起见,作者省略了注意力头,并在本文的实现中对所有头进行了均匀。而后将其线性投影到特色维度:

$$
\mathbf{Y}_{\operatorname{attn}}(t, h, w, c)=\sum_{h^{\prime}=1}^{H} \sum_{w^{\prime}=1}^{W} \mathbf{W}_{\text {prev}}\left(h-h^{\prime}, w-w^{\prime}, c\right) \mathbf{A}_{\text {prev}}\left(t, h^{\prime}, w^{\prime}\right)+\\\mathbf{W}_{\text {next}}\left(h-h^{\prime}, w-w^{\prime}, c\right) \mathbf{A}_{\text {next}}\left(t, h^{\prime}, w^{\prime}\right) .
$$

试验表明,只管查问、要害和输出特色都是从纯 2D 图像数据中学习的,但这种注意力图依然提供有用的信号。
最终的调制特色是通过将工夫特色与原始空间特色以残差形式混合失去的,即 $\mathbf{Y}=\mathbf{X}+\mathbf{Y}_{\mathrm{conv}}+\mathbf{Y}_{\text {pos}}+\mathbf{Y}_{\mathrm{attn}}$。

3.3 Complexity Analysis

Inference

思考到只应用一个查问 token,额定的 Transformer 解码器只引入了可疏忽的计算开销。为了证实这一点,作者将 ViT-B/16 视为本文的图像骨干,并为 Transformer 块写出 FLOPS,如下所示:

$$
\mathrm{FLOPS}=2 q C^{2}+2 k C^{2}+2 q k C+2 \alpha q C^{2}
$$

这里,q、k、C、α 代表查问 token 的数量、键(值)token 的数量、嵌入维度的数量和 MLP 扩大因子。通过这个公式,能够粗略地比拟一个编码器块和解码器块的 FLOPS(h,w,t 是沿高度、宽度、工夫维度的特色大小,采纳常见的抉择 α = 4,h = w = 14,C = 768 用于预计):

$$
\frac{\text { FLOPS}_{\mathrm{dec}}}{\mathrm{FLOPS}_{\mathrm{enc}}} \approx \frac{2 h w t C^{2}}{t\left(12 h w C^{2}+2 h^{2} w^{2} C\right)} \approx \frac{1}{6}
$$

由此,能够看到,与编码器块相比,解码器块更轻量级。即便应用残缺配置(每个编码器输入上都有一个解码器块,不缩小通道并且启用所有工夫模块),FLOPS 的减少也在骨干的 20% 以内。

Training

因为应用固定骨干网和非侵入式 Transformer 解码器头(即,插入的模块不会扭转任何骨干网层的输出),能够完全避免通过骨干网进行反向流传。这大大减少了内存耗费和每次训练迭代的工夫。

4. 试验

Kinetics-400 数据集上本文办法和其余 SOTA 办法的比照。

上表展现了本文办法的基于 CLIP 办法的比照后果。

在理论硬件上测量的推理提早和吞吐量。

训练工夫比拟。

作者在上表中比拟了现实设置中的训练工夫。

多层高分辨率特色图的成果。

不同预训练图像特色的后果。

上图展现了训练工夫与解冻或微调骨干的准确性。

工夫信息对视频辨认的影响。

Something-Something-v2 的次要后果。

不同组合的集成后果。

在 Something-Something-v2 上集成后果。

5. 总结

作者提出了一种新的视频动作辨认 pipeline 模式:在固定的可迁徙图像特色之上学习一个无效的迁徙学习头。通过解冻图像骨干,训练工夫大大减少。此外,通过利用来自骨干的多层高分辨率两头特色图,能够在很大水平上弥补因为解冻骨干造成的精度损失。因而,本文的办法无效地利用了弱小的图像特色进行视频辨认,同时防止了对十分大的图像模型进行沉重或令人望而生畏的全面微调。作者进一步表明,在凋谢世界环境中学习的可转移图像特色蕴含与标记数据集高度互补的常识,这可能会激发更无效的办法来构建最先进的视频模型。作者认为本文的察看有可能使更宽泛的社区能够拜访视频辨认,并以更无效的形式将视频模型推向新的最先进程度。

【我的项目举荐】

面向小白的顶会论文外围代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的 YOLO 指标检测库:https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看,月薪十万!”

“学会点赞,身价千万!”

【技术交换】

已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、学术科研交换,欢送大家关注!!!

请关注 FightingCV 公众号,并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。

举荐退出 FightingCV交换群 ,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称

本文由 mdnice 多平台公布

正文完
 0