关于计算机视觉:SVFormer走进半监督动作识别的视觉-Transformer

56次阅读

共计 781 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队顾梦佳

半监督学习（SSL）的动作辨认是一个要害的视频了解工作，然而视频标注的高老本加大了该工作的难度。目前相干的办法次要钻研了卷积神经网络，较少对于视觉 Transformers（ViT）模型的摸索。SVFormer 钻研了如何将半监督 ViT 用于动作辨认。它采纳稳固的伪标签框架（即 EMA-Teacher）解决未标记的视频样本。它还针对视频数据提出了一种新鲜的加强策略，Tube TokenMix，其中视频剪辑通过掩码混合，在时间轴上具备统一的掩码 token。另外，SVFormer 还利用一种工夫扭曲加强来笼罩视频中简单的工夫变动，将所选帧拉伸到各种片段的继续时间段。通过在三个公开的视频数据集 Kinetics-400、UCF101 和 HMDB-51 上进行的大量试验，SVFormer 验证了其劣势。

Tube TokenMix Training in SVFormerSVFormer

是一种基于 Transformer 的半监督动作识别方法。它采纳一致性损失，构建两个不同的加强视图并要求它们之间的统一预测。最重要的是，该办法提出应用 Tube TokenMix（TTMix），一种人造实用于视频 Transformer 的加强办法。与 Mixup 和 CutMix 不同，Tube TokenMix 在掩码 token 后就联合了 token 级别的特色，使得掩码在时间轴上具备统一的掩码 token。这样的设计能够更好地模仿 token 之间的时序相关性。为了帮忙模型学习时序动静，SVFormer 进一步引入时序扭曲加强（TWAug），能够任意扭转工夫片段中每一帧的长度。

相干材料：