关于人工智能:ICCV-2021-的最佳论文模型-Swin-Transformer-终于对视频下手了

32次阅读

共计 664 个字符,预计需要花费 2 分钟才能阅读完成。

出品人 :Towhee 技术团队

在去年 Swin Transformer 取得 ICCV 2021 最佳论文后,微软亚洲研究院又在往年推出了视频畛域的佳作 Video Swin Transformer。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作辨认和时序建模工作上都优于 ViViT、TimeSformer 等网络! 该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。

Video Swin Transformer: an illustrated example of 3D shifted windows

从图像畛域拓展到视频畛域,Swin Transformer 在原来的根底上引入局部性的演绎偏置,并且无效利用了预训练图像模型。与之前相比,Video Swin Transformer 即便时空合成也能够全局计算自注意力,因而可能更好地衡量速度与准确率。

参考资料:

模型用例:action-classification/video-swin-transformer

论文地址:Video Swin Transformer

官网阐明:屠榜视频了解几大工作!微软提出:Video Swin Transformer

其余材料:视频分类利器之 Video Swin Transformer


更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)

正文完
 0