共计 3457 个字符,预计需要花费 9 分钟才能阅读完成。
本周一共介绍了 5 个视频相干的模型:“杂食者”Omnivore、“性价比之王”TSM、“进击的纯血”TimeSformer、“回归的高手”Video Swin Tranformer、“国产之光”UniFormer。无论是崛起的新生代,还是与时俱进的 OG,总有一款模型为你所爱。图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore!
出品人:Towhee 技术团队
腻烦了不同数据要用不同的模型?是否想过用一个模型就能解决不同模态的数据?终于,在 2022 年初 Meta AI 推出了“杂食者”Omnivore,一个模型搞定不同视觉模态数据,能够对图像、视频、3D 数据进行分类。Omnivore 不仅兼容多种类型的数据,在不同工作的数据集上也都名落孙山。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作辨认的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图 3D 场景分类的 SUN RGB-D 数据集上,精度也高达 67.1%。
Omnivore: Multiple visual modalitiesOmnivore 将不同视觉模态的数据都转换成通用的向量格局,而后利用 Transformer 特有的灵活性,针对不同模态的分类工作进行联结训练。无论是从头训练,还是对预训练模型进行微调,只有应用 Omnivore 和现成的规范数据集,就能让其性能达到甚至超过对应的单模型。
参考资料:模型用例:action-classification/omnivore
论文:OMNIVORE: A Single Model for Many Visual Modalities
更多材料:Facebook AI 推出“超级模型”:搞定图像、视频和 3D 数据三大分类工作,性能不输独立模型
高性价比模型 TSM,用 2D 的老本达到 3D 的成果
MIT 和 IBM Watson AI Lab 联结提出一种高效的视频了解模型 TSM(Temporal Shift Module),在保留 2D 效率的同时,通过工夫位移模仿 3D 建模进步模型性能。以往的模型了解视频时,须要在传统图片剖析的根底上消耗大量算力补充对于工夫的信息。TSM 的呈现,使得低成本实现高性能视频了解模型成为可能。
TSM:Temporal shifting2D CNN 和 3D CNN 是视频了解中最罕用的两个办法:应用 2D CNN 模型运算量少,但会丢失局部工夫信息;而应用 3D CNN 尽管成果好,但运算量极大。面对这样的状况,TSM 将工夫位移模块嵌入 2D CNN,从而能够在不增加任何额定的计算量和参数的状况下,轻松的达到与 3D CNN 成果相当的视频理解能力。
参考资料:模型用例:action-classification/tsm
论文: TSM: Temporal Shift Module for Efficient Video Understanding
更多材料:视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video UnderstandingTSM:Temporal Shift Module for 视频了解
TimeSformer: 只靠 Transformer 就能了解视频?注意力机制的又一次进击!
Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频了解新架构,齐全基于 Transformer,可能彻底解脱 CNN!仅用三分之一的工夫训练,TimeSformer 就能以十倍的速度推理,并且在多个行为辨认数据集失去超群的成果。论文中应用的数据集包含 Kinetics-400,Kinetics-600、Something-Something-v2、Diving-48 和 HowTo100M,均验证了 TimeSformer 的高性能!
TimeSformer: Visualization of 5 space-time self-attention schemesTimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比,TimeSformer 不仅减速了训练过程,也大幅缩小了推理工夫。除此之外,因为 TimeSformer 的可拓展性,它更具发展潜力,可能解决更长的视频片段、训练更大的模型。
参考资料:模型用例:action-classification/timesformer
论文:Is Space-Time Attention All You Need for Video Understanding?
其余材料:Facebook AI 提出 TimeSformer:齐全基于 Transformer 的视频了解框架 TimeSformer 解析:视频了解中的 transformerTimeSformer:视频了解所需的只是时空注意力吗?
ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!
在去年 Swin Transformer 取得 ICCV 2021 最佳论文后,微软亚洲研究院又在往年推出了视频畛域的佳作 Video Swin Transformer。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作辨认和时序建模工作上都优于 ViViT、TimeSformer 等网络!该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。
Video Swin Transformer: an illustrated example of 3D shifted windows 从图像畛域拓展到视频畛域,Swin Transformer 在原来的根底上引入局部性的演绎偏置,并且无效利用了预训练图像模型。与之前相比,Video Swin Transformer 即便时空合成也能够全局计算自注意力,因而可能更好地衡量速度与准确率。
参考资料:
模型用例:action-classification/video-swin-transformer
论文:Video Swin Transformer
官网阐明:屠榜视频了解几大工作!微软提出:Video Swin Transformer
其余材料:视频分类利器之 Video Swin Transformer
国产之光!高分时空表征学习模型 UniFormer
由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联结出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在支流数据集上都获得了优良的问题:在 Kinetics-400/Kinetics600 上获得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上获得 60.9% 和 71.2% top-1 精度。其论文一经发表,就取得了高分,最终收录于 ICLR 2022(初审评分高达 7.5 分:8 8 6 8)。
UniFormer ArchitectureUniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 构造,能在计算量和精度之间获得均衡。不同于传统的 Transformer 构造在所有层都应用自注意力机制,论文中提出的 relation aggregator 能够别离解决视频的冗余信息和依赖信息。在浅层,aggregator 利用一个小的 learnable matrix 学习部分的关系,通过聚合小的 3D 邻域的 token 信息极大地缩小计算量。在深层,aggregator 通过相似性比拟学习全局关系,能够灵便的建设远距离视频帧 token 之间的长程依赖关系。
参考资料:
模型用例:action-classification/video-swin-transformer
论文:UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING
更多材料:高分论文!UniFormer:高效时 - 空表征学习的对立 TransformerICLR2022 UniFormer:无缝集成 Transformer,更高效的时空表征学习框架
更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)