关于机器学习:ECCV-2022高效视频学习框架-EVLCLIP-助力视频识别

42次阅读

共计 665 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队顾梦佳

视频辨认始终以端到端的学习范式为主，即首先应用预训练图像模型的权重初始化视频辨认模型，而后用视频进行端到端训练。尽管这种形式使得视频网络可能从预训练的图像模型中受害，然而它须要大量的计算和内存资源来微调视频模型。另外，如果间接应用预训练好的图像模型而不通过微调骨干网络，这样取得的图像特色会导致最终的视频网络后果不佳。侥幸的是，CLIP 最近的停顿为视觉辨认工作的新门路铺平了路线。这些模型在大型凋谢词汇图像 - 文本对数据上进行了预训练，学习了具备丰盛语义的弱小视觉示意。在此基础上， 高效视频学习框架 EVL 可能间接训练具备解冻 CLIP 特色的高质量视频辨认模型 。宽泛的试验证实了 EVL 的有效性，并发现它是一种简略无效的流水线，具备更高的准确性，同时升高了训练和推理老本。

EVL ArchitectureEVL 设计了一种无效的迁徙学习办法，可能利用解冻的 CLIP 图像特色进行视频辨认。为了从 CLIP 图像编码器动静收集帧级空间特色，该框架采纳了一个轻量级的 Transformer 解码器并学习了一个查问 token。此外，它在每个解码器层中采纳了部分工夫模块，以便发现来自相邻帧及其注意力图的工夫线索。最初，模型应用全连贯层来预测视频类别的分数。

相干材料：

代码地址：https://github.com/opengvlab/…
论文链接：Frozen CLIP Models are Efficient Video Learners
更多材料：ECCV2022| 港中文 MM Lab 证实 Frozen 的 CLIP 模型是高效视频学习者

正文完