出品人:Towhee 技术团队 顾梦佳
为了防止大量的计算,现有的视频动作识别方法通常会采样几帧来示意每个视频,然而这往往会限度辨认的性能。为此,Ample and Focal Network(AFNet)提出两个分支的构造,以用更少的计算量利用更多的视频帧。在缩小计算量的前提下,AFNet 仍然能借助其中间特色中的动静抉择强制执行隐式时序建模,胜利实现更高的精度。此外,该办法还能够帮忙用更低的老本缩小空间冗余。在五个公开的动作检测数据集上进行大量试验,AFNet 证实了其有效性和效率。
Architecture of AFNetAFNet
尽管应用了更多视频帧,但明智地从中提取信息以放弃较低的计算成本。具体来说,该办法设计了一个双分支构造,依据视频帧的重要性进行区别对待。另外,它以自适应的形式解决特色,以取得提供弱小的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸解决所有的输出特色。它将所有的视频帧作为数据,通过压缩计算取得丰盛的信息,并利用所提出的定位模块为 Focal Branch 提供领导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块倡议的显着帧,计算其黑白特色。两个分支的后果在 AF 模块的开端自适应交融,避免信息失落。
相干材料:
代码地址:https://github.com/bespontaneous/afnet-pytorch
论文链接:Look More but Care Less in Video Recognition