关于计算机视觉:SVFormer走进半监督动作识别的视觉-Transformer

56次阅读

共计 781 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 顾梦佳

半监督学习(SSL)的动作辨认是一个要害的视频了解工作,然而视频标注的高老本加大了该工作的难度。目前相干的办法次要钻研了卷积神经网络,较少对于视觉 Transformers(ViT)模型的摸索。SVFormer 钻研了如何将半监督 ViT 用于动作辨认。它采纳稳固的伪标签框架(即 EMA-Teacher)解决未标记的视频样本。它还针对视频数据提出了一种新鲜的加强策略,Tube TokenMix,其中视频剪辑通过掩码混合,在时间轴上具备统一的掩码 token。另外,SVFormer 还利用一种工夫扭曲加强来笼罩视频中简单的工夫变动,将所选帧拉伸到各种片段的继续时间段。通过在三个公开的视频数据集 Kinetics-400、UCF101 和 HMDB-51 上进行的大量试验,SVFormer 验证了其劣势。

Tube TokenMix Training in SVFormerSVFormer

是一种基于 Transformer 的半监督动作识别方法。它采纳一致性损失,构建两个不同的加强视图并要求它们之间的统一预测。最重要的是,该办法提出应用 Tube TokenMix(TTMix),一种人造实用于视频 Transformer 的加强办法。与 Mixup 和 CutMix 不同,Tube TokenMix 在掩码 token 后就联合了 token 级别的特色,使得掩码在时间轴上具备统一的掩码 token。这样的设计能够更好地模仿 token 之间的时序相关性。为了帮忙模型学习时序动静,SVFormer 进一步引入时序扭曲加强(TWAug),能够任意扭转工夫片段中每一帧的长度。

相干材料:

  • 代码地址:https://github.com/ChenHsing/…
  • 论文链接:SVFormer: Semi-supervised Video Transformer for Action Recognition
正文完
 0