关于计算机视觉:ECCV-2022TeSTRa稳定的流式视频识别

出品人：Towhee 技术团队顾梦佳

流式视频辨认视频会关注每一个视频帧中的对象及其行为。一个好的流式辨认模型能够捕捉视频的长期动静和短期变动。然而在大多数现有办法中，尤其是基于 Transformers 架构的网络，计算复杂度往往会随着所思考的变动的长度而激烈增长。为了解决这个问题，TeSTra 提出一种时序平滑 Transformer，能够接管任意长度的输出，并具备稳固的缓存和计算开销。因为时间跨度减少，TeSTra 胜利在两个规范在线动作检测和动作预期数据集 THUMOS’14 和 EPIC-Kitchen-100 上获得了最先进的后果。

Overview of streaming attention architecture TeSTraTeSTra

可能对足够长的历史进行编码，每个工夫步的推理老本都很稳固。该框架通过内核镜头从新表述了视频 Transformer 中的穿插注意力。它采纳了一种无效的注意力机制，在间断帧之间重复使用大部分注意力计算。并利用了两种工夫平滑内核：box kernel 和 Laplace kernel。这样的设计实现了高效的流式留神计算。

相干材料 ：
代码地址：https://github.com/zhaoyue-ze…
论文链接：Real-time Online Video Detection with Temporal Smoothing Transformers