关于计算机视觉:ECCV-2022TeSTRa稳定的流式视频识别

27次阅读

共计 578 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 顾梦佳

流式视频辨认视频会关注每一个视频帧中的对象及其行为。一个好的流式辨认模型能够捕捉视频的长期动静和短期变动。然而在大多数现有办法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所思考的变动的长度而激烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,能够接管任意长度的输出,并具备稳固的缓存和计算开销。因为时间跨度减少,TeSTra 胜利在两个规范在线动作检测和动作预期数据集 THUMOS’14 和 EPIC-Kitchen-100 上获得了最先进的后果。

Overview of streaming attention architecture TeSTraTeSTra

可能对足够长的历史进行编码,每个工夫步的推理老本都很稳固。该框架通过内核镜头从新表述了视频 Transformer 中的穿插注意力。它采纳了一种无效的注意力机制,在间断帧之间重复使用大部分注意力计算。并利用了两种工夫平滑内核:box kernel 和 Laplace kernel。这样的设计实现了高效的流式留神计算。

相干材料
代码地址:https://github.com/zhaoyue-ze…
论文链接:Real-time Online Video Detection with Temporal Smoothing Transformers

正文完
 0