出品人:Towhee 技术团队

Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频了解新架构,齐全基于Transformer,可能彻底解脱 CNN!仅用三分之一的工夫训练,TimeSformer 就能以十倍的速度推理,并且在多个行为辨认数据集失去超群的成果。论文中应用的数据集包含 Kinetics-400,Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ,均验证了 TimeSformer 的高性能!

TimeSformer: Visualization of 5 space-time self-attention schemes

TimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比,TimeSformer 不仅减速了训练过程,也大幅缩小了推理工夫。除此之外,因为 TimeSformer 的可拓展性,它更具发展潜力,可能解决更长的视频片段、训练更大的模型。

参考资料

模型用例:action-classification/timesformer

论文地址:Is Space-Time Attention All You Need for Video Understanding?

其余材料:
Facebook AI 提出 TimeSformer:齐全基于 Transformer 的视频了解框架

TimeSformer 解析:视频了解中的transformer

TimeSformer:视频了解所需的只是时空注意力吗?


更多我的项目更新及具体内容请关注咱们的我的项目(https://github.com/towhee-io/...) ,您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)