关于动作识别:NeurIPS-2022视频动作识别AFNet-用更低的成本接收更多数据

作者：

在

出品人：Towhee 技术团队顾梦佳

为了防止大量的计算，现有的视频动作识别方法通常会采样几帧来示意每个视频，然而这往往会限度辨认的性能。为此，Ample and Focal Network（AFNet）提出两个分支的构造，以用更少的计算量利用更多的视频帧。在缩小计算量的前提下，AFNet 仍然能借助其中间特色中的动静抉择强制执行隐式时序建模，胜利实现更高的精度。此外，该办法还能够帮忙用更低的老本缩小空间冗余。在五个公开的动作检测数据集上进行大量试验，AFNet 证实了其有效性和效率。

Architecture of AFNetAFNet

尽管应用了更多视频帧，但明智地从中提取信息以放弃较低的计算成本。具体来说，该办法设计了一个双分支构造，依据视频帧的重要性进行区别对待。另外，它以自适应的形式解决特色，以取得提供弱小的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸解决所有的输出特色。它将所有的视频帧作为数据，通过压缩计算取得丰盛的信息，并利用所提出的定位模块为 Focal Branch 提供领导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块倡议的显着帧，计算其黑白特色。两个分支的后果在 AF 模块的开端自适应交融，避免信息失落。

相干材料：

代码地址：https://github.com/bespontaneous/afnet-pytorch
论文链接：Look More but Care Less in Video Recognition

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章