关于transformer:OpenVI论文解读系列达摩院快速动作识别TPS-ECCV论文深入解读

30次阅读

共计 610 个字符，预计需要花费 2 分钟才能阅读完成。

许多工作尝试对时空自注意力进行合成，例如 ViViT 和 Timesformer。这些办法尽管减小了计算复杂度，但会引入额定的参数量。本文提出了一种简略高效的时空自注意力 Transformer，在比照 2D Transformer 网络不减少计算量和参数量状况下，实现了时空自注意力机制。并且在 Sthv1&Sthv2, Kinetics400, Diving48 获得了很好的性能。文章已被 ECCV 2022 录用。

视觉 Transofrmer 通常将图像宰割为不重叠的块 (patch)，patch 之间通过自注意力机制(Self-Attention) 进行特色聚合，patch 外部通过全连贯层 (FFN) 进行特色映射。每个 Transformer block 中，蕴含 Self-Attention 和 FFN，通过重叠 Transformer block 的形式达到学习图像特色的目标。

残缺内容请点击下方链接查看：

https://developer.aliyun.com/article/1191077?utm_content=g_10…

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

正文完