关于transformer:OpenVI论文解读系列达摩院快速动作识别TPS-ECCV论文深入解读

30次阅读

共计 610 个字符,预计需要花费 2 分钟才能阅读完成。

一、背景

许多工作尝试对时空自注意力进行合成,例如 ViViT 和 Timesformer。这些办法尽管减小了计算复杂度,但会引入额定的参数量。本文提出了一种简略高效的时空自注意力 Transformer,在比照 2D Transformer 网络不减少计算量和参数量状况下,实现了时空自注意力机制。并且在 Sthv1&Sthv2, Kinetics400, Diving48 获得了很好的性能。文章已被 ECCV 2022 录用。

二、办法

视觉 Transofrmer 通常将图像宰割为不重叠的块 (patch),patch 之间通过自注意力机制(Self-Attention) 进行特色聚合,patch 外部通过全连贯层 (FFN) 进行特色映射。每个 Transformer block 中,蕴含 Self-Attention 和 FFN,通过重叠 Transformer block 的形式达到学习图像特色的目标。

残缺内容请点击下方链接查看:

https://developer.aliyun.com/article/1191077?utm_content=g_10…

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0