共计 721 个字符,预计需要花费 2 分钟才能阅读完成。
出品人:Towhee 技术团队 王翔宇、顾梦佳
视频辨认的规范办法通常会对残缺的视频输出进行操作,这往往会因为视频中宽泛存在的时空冗余导致效率低下。视频掩码建模(即 VideoMAE)的最新进展表明,一般视觉 Transformer (ViT) 可能在仅给定无限视觉内容的状况下补充时空上下文。受此启发,掩码动作辨认(MAR)提出抛弃一部分 patch 并仅对局部视频进行操作,以此缩小冗余计算。相比 ViT 模型,MAR 可能在大量升高计算成本的同时,还能始终展现出显著的性能劣势。尤其是由 MAR 训练的 ViT-Large,在动作辨认数据集 Kinetics-400 和 Something-Something v2 上均具备令人信服的劣势。
Overview of Masked Action Recognition (MAR).
MAR 蕴含以下两个不可或缺的组件:cell running masking 和 bridging classifier。具体来说,为了使 ViT 可能轻松感知可见 patch 之外的细节,cell running masking 保留了视频中的时空相关性。它可能确保能够顺次察看雷同空间地位的 patch,以便于重建。此外,尽管局部察看到的特色能够重建语义显式的不可见 patch,但它们无奈实现精确的分类。为此,bridging classifier 被用来弥合用于重建的 ViT 编码特色与专门用于分类的特色之间的语义鸿沟。
相干材料:
代码地址:https://github.com/alibaba-mmai-research/Masked-Action-Recognition
论文链接:MAR: Masked Autoencoders for Efficient Action Recognition