关于计算机视觉:AAAI-2023针对视频分类的知识迁移

4次阅读

共计 654 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队王翔宇、顾梦佳

从与工作无关的预训练深度模型中为上游工作转移常识是计算机视觉钻研中的一个重要课题。随着计算能力的增长，当初曾经有了大规模的开源视觉语言预训练模型和大量的数据。因而，针对视频分类工作的常识迁徙可能无效进步视频分类的性能和训练速度。通过简略而无效的调整范例，该办法可能在各种视频辨认场景（即 zero-shot、few-shot、个别辨认）实现了最先进的性能和高效的训练。特地是，它在动作视频数据集 Kinetics-400 上达到了最先进准确率 87.8%。

Illustration of transferring vision-language pre-trained models for video recognition.

传统办法会随机初始化用于视觉分类的线性分类头，但无奈将文本编码器用于上游视觉辨认工作。将预训练的视觉语言模型迁徙到视频辨认工作，批改了线性分类器的角色，并用来自预训练模型的不同常识替换了分类器。它利用通过良好预训练的语言模型为高效的迁徙学习生成良好的语义指标。这种新的范式认为同类样本所蕴含的语义信息是关联的，因而对投影矩阵进行了一些变换：随机采样行向量、使行向量互相正交、从视觉统计常识初始化来进行最大化标签之间的关联。

相干材料：

代码地址：https://github.com/whwu95/Tex…
论文链接：Revisiting Classifier: Transferring Vision-Language Models for Video Recognition

正文完