关于动作识别:MAR针对动作识别的视频掩码建模

出品人:Towhee 技术团队 王翔宇、顾梦佳 视频辨认的规范办法通常会对残缺的视频输出进行操作,这往往会因为视频中宽泛存在的时空冗余导致效率低下。视频掩码建模(即 VideoMAE)的最新进展表明,一般视觉 Transformer (ViT) 可能在仅给定无限视觉内容的状况下补充时空上下文。受此启发,掩码动作辨认(MAR)提出抛弃一部分 patch 并仅对局部视频进行操作,以此缩小冗余计算。相比 ViT 模型,MAR 可能在大量升高计算成本的同时,还能始终展现出显著的性能劣势。尤其是由 MAR 训练的 ViT-Large,在动作辨认数据集 Kinetics-400 和 Something-Something v2 上均具备令人信服的劣势。 Overview of Masked Action Recognition (MAR).MAR 蕴含以下两个不可或缺的组件:cell running masking 和 bridging classifier。具体来说,为了使 ViT 可能轻松感知可见 patch 之外的细节,cell running masking 保留了视频中的时空相关性。它可能确保能够顺次察看雷同空间地位的 patch,以便于重建。此外,尽管局部察看到的特色能够重建语义显式的不可见 patch,但它们无奈实现精确的分类。 为此,bridging classifier 被用来弥合用于重建的 ViT 编码特色与专门用于分类的特色之间的语义鸿沟。 相干材料:代码地址:https://github.com/alibaba-mmai-research/Masked-Action-Recognition论文链接:MAR: Masked Autoencoders for Efficient Action Recognition

February 22, 2023 · 1 min · jiezi

关于动作识别:NeurIPS-2022视频动作识别AFNet-用更低的成本接收更多数据

出品人:Towhee 技术团队 顾梦佳 为了防止大量的计算,现有的视频动作识别方法通常会采样几帧来示意每个视频,然而这往往会限度辨认的性能。为此,Ample and Focal Network(AFNet)提出两个分支的构造,以用更少的计算量利用更多的视频帧。在缩小计算量的前提下,AFNet 仍然能借助其中间特色中的动静抉择强制执行隐式时序建模,胜利实现更高的精度。此外,该办法还能够帮忙用更低的老本缩小空间冗余。在五个公开的动作检测数据集上进行大量试验,AFNet 证实了其有效性和效率。 Architecture of AFNetAFNet尽管应用了更多视频帧,但明智地从中提取信息以放弃较低的计算成本。具体来说,该办法设计了一个双分支构造,依据视频帧的重要性进行区别对待。另外,它以自适应的形式解决特色,以取得提供弱小的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸解决所有的输出特色。它将所有的视频帧作为数据,通过压缩计算取得丰盛的信息,并利用所提出的定位模块为 Focal Branch 提供领导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块倡议的显着帧,计算其黑白特色。两个分支的后果在 AF 模块的开端自适应交融,避免信息失落。 相干材料: 代码地址:https://github.com/bespontaneous/afnet-pytorch论文链接:Look More but Care Less in Video Recognition

February 20, 2023 · 1 min · jiezi