共计 665 个字符,预计需要花费 2 分钟才能阅读完成。
出品人:Towhee 技术团队 顾梦佳
视频辨认始终以端到端的学习范式为主,即首先应用预训练图像模型的权重初始化视频辨认模型,而后用视频进行端到端训练。尽管这种形式使得视频网络可能从预训练的图像模型中受害,然而它须要大量的计算和内存资源来微调视频模型。另外,如果间接应用预训练好的图像模型而不通过微调骨干网络,这样取得的图像特色会导致最终的视频网络后果不佳。侥幸的是,CLIP 最近的停顿为视觉辨认工作的新门路铺平了路线。这些模型在大型凋谢词汇图像 - 文本对数据上进行了预训练,学习了具备丰盛语义的弱小视觉示意。在此基础上, 高效视频学习框架 EVL 可能间接训练具备解冻 CLIP 特色的高质量视频辨认模型 。宽泛的试验证实了 EVL 的有效性,并发现它是一种简略无效的流水线,具备更高的准确性,同时升高了训练和推理老本。
EVL ArchitectureEVL 设计了一种无效的迁徙学习办法,可能利用解冻的 CLIP 图像特色进行视频辨认。为了从 CLIP 图像编码器动静收集帧级空间特色,该框架采纳了一个轻量级的 Transformer 解码器并学习了一个查问 token。此外,它在每个解码器层中采纳了部分工夫模块,以便发现来自相邻帧及其注意力图的工夫线索。最初,模型应用全连贯层来预测视频类别的分数。
相干材料:
代码地址:https://github.com/opengvlab/…
论文链接:Frozen CLIP Models are Efficient Video Learners
更多材料:ECCV2022| 港中文 MM Lab 证实 Frozen 的 CLIP 模型是高效视频学习者
正文完