关于数据:TimeSformer-只靠-Transformer-就能理解视频注意力机制的又一次进击

110次阅读

共计 809 个字符，预计需要花费 3 分钟才能阅读完成。

出品人 ：Towhee 技术团队

Facebook AI 提出了一种 TimeSformer（Time-Space transformer）的视频了解新架构，齐全基于 Transformer，可能彻底解脱 CNN！ 仅用三分之一的工夫训练，TimeSformer 就能以十倍的速度推理，并且在多个行为辨认数据集失去超群的成果。 论文中应用的数据集包含 Kinetics-400，Kinetics-600、Something-Something-v2、Diving-48 和 HowTo100M，均验证了 TimeSformer 的高性能！

TimeSformer: Visualization of 5 space-time self-attention schemes

TimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列，由每一帧中提取的图像小块 (patches) 组成，相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比，TimeSformer 不仅减速了训练过程，也大幅缩小了推理工夫。除此之外，因为 TimeSformer 的可拓展性，它更具发展潜力，可能解决更长的视频片段、训练更大的模型。

参考资料 ：

模型用例：action-classification/timesformer

论文地址：Is Space-Time Attention All You Need for Video Understanding?

其余材料：
Facebook AI 提出 TimeSformer：齐全基于 Transformer 的视频了解框架

TimeSformer 解析：视频了解中的 transformer

TimeSformer：视频了解所需的只是时空注意力吗？

更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…)，您的关注是咱们用爱发电的弱小能源，欢送 star, fork, slack 三连 :)

正文完