出品人:Towhee 技术团队 顾梦佳
流式视频辨认视频会关注每一个视频帧中的对象及其行为。一个好的流式辨认模型能够捕捉视频的长期动静和短期变动。然而在大多数现有办法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所思考的变动的长度而激烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,能够接管任意长度的输出,并具备稳固的缓存和计算开销。因为时间跨度减少,TeSTra 胜利在两个规范在线动作检测和动作预期数据集 THUMOS’14 和 EPIC-Kitchen-100 上获得了最先进的后果。
Overview of streaming attention architecture TeSTraTeSTra
可能对足够长的历史进行编码,每个工夫步的推理老本都很稳固。该框架通过内核镜头从新表述了视频 Transformer 中的穿插注意力。它采纳了一种无效的注意力机制,在间断帧之间重复使用大部分注意力计算。并利用了两种工夫平滑内核:box kernel 和 Laplace kernel。这样的设计实现了高效的流式留神计算。
相干材料 :
代码地址:https://github.com/zhaoyue-ze…
论文链接:Real-time Online Video Detection with Temporal Smoothing Transformers