关于数据:TimeSformer-只靠-Transformer-就能理解视频注意力机制的又一次进击

110次阅读

共计 809 个字符,预计需要花费 3 分钟才能阅读完成。

出品人 :Towhee 技术团队

Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频了解新架构,齐全基于 Transformer,可能彻底解脱 CNN! 仅用三分之一的工夫训练,TimeSformer 就能以十倍的速度推理,并且在多个行为辨认数据集失去超群的成果。 论文中应用的数据集包含 Kinetics-400,Kinetics-600、Something-Something-v2、Diving-48 和 HowTo100M,均验证了 TimeSformer 的高性能!

TimeSformer: Visualization of 5 space-time self-attention schemes

TimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比,TimeSformer 不仅减速了训练过程,也大幅缩小了推理工夫。除此之外,因为 TimeSformer 的可拓展性,它更具发展潜力,可能解决更长的视频片段、训练更大的模型。

参考资料

模型用例:action-classification/timesformer

论文地址:Is Space-Time Attention All You Need for Video Understanding?

其余材料:
Facebook AI 提出 TimeSformer:齐全基于 Transformer 的视频了解框架

TimeSformer 解析:视频了解中的 transformer

TimeSformer:视频了解所需的只是时空注意力吗?


更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)

正文完
 0