关于数据库:每日模型系列20220711

本周一共介绍了 5 个视频相干的模型：“杂食者”Omnivore、“性价比之王”TSM、“进击的纯血”TimeSformer、“回归的高手”Video Swin Tranformer、“国产之光”UniFormer。无论是崛起的新生代，还是与时俱进的 OG，总有一款模型为你所爱。图像、视频、3D 数据一把抓，不挑食的 AI 模型 Omnivore！

出品人：Towhee 技术团队
腻烦了不同数据要用不同的模型？是否想过用一个模型就能解决不同模态的数据？终于，在 2022 年初 Meta AI 推出了“杂食者”Omnivore，一个模型搞定不同视觉模态数据，能够对图像、视频、3D 数据进行分类。Omnivore 不仅兼容多种类型的数据，在不同工作的数据集上也都名落孙山。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度；在用于动作辨认的 Kinetics 数据集上能达到 84.1% 精度；在用于单视图 3D 场景分类的 SUN RGB-D 数据集上，精度也高达 67.1%。

Omnivore: Multiple visual modalitiesOmnivore 将不同视觉模态的数据都转换成通用的向量格局，而后利用 Transformer 特有的灵活性，针对不同模态的分类工作进行联结训练。无论是从头训练，还是对预训练模型进行微调，只有应用 Omnivore 和现成的规范数据集，就能让其性能达到甚至超过对应的单模型。

参考资料：模型用例：action-classification/omnivore
论文：OMNIVORE: A Single Model for Many Visual Modalities
更多材料：Facebook AI 推出“超级模型”：搞定图像、视频和 3D 数据三大分类工作，性能不输独立模型

高性价比模型 TSM，用 2D 的老本达到 3D 的成果

MIT 和 IBM Watson AI Lab 联结提出一种高效的视频了解模型 TSM（Temporal Shift Module），在保留 2D 效率的同时，通过工夫位移模仿 3D 建模进步模型性能。以往的模型了解视频时，须要在传统图片剖析的根底上消耗大量算力补充对于工夫的信息。TSM 的呈现，使得低成本实现高性能视频了解模型成为可能。

TSM：Temporal shifting2D CNN 和 3D CNN 是视频了解中最罕用的两个办法：应用 2D CNN 模型运算量少，但会丢失局部工夫信息；而应用 3D CNN 尽管成果好，但运算量极大。面对这样的状况，TSM 将工夫位移模块嵌入 2D CNN，从而能够在不增加任何额定的计算量和参数的状况下，轻松的达到与 3D CNN 成果相当的视频理解能力。

参考资料：模型用例：action-classification/tsm
论文: TSM: Temporal Shift Module for Efficient Video Understanding
更多材料：视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video UnderstandingTSM：Temporal Shift Module for 视频了解

TimeSformer: 只靠 Transformer 就能了解视频？注意力机制的又一次进击！

Facebook AI 提出了一种 TimeSformer（Time-Space transformer）的视频了解新架构，齐全基于 Transformer，可能彻底解脱 CNN！仅用三分之一的工夫训练，TimeSformer 就能以十倍的速度推理，并且在多个行为辨认数据集失去超群的成果。论文中应用的数据集包含 Kinetics-400，Kinetics-600、Something-Something-v2、Diving-48 和 HowTo100M，均验证了 TimeSformer 的高性能！

TimeSformer: Visualization of 5 space-time self-attention schemesTimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列，由每一帧中提取的图像小块 (patches) 组成，相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比，TimeSformer 不仅减速了训练过程，也大幅缩小了推理工夫。除此之外，因为 TimeSformer 的可拓展性，它更具发展潜力，可能解决更长的视频片段、训练更大的模型。

参考资料：模型用例：action-classification/timesformer
论文：Is Space-Time Attention All You Need for Video Understanding?
其余材料：Facebook AI 提出 TimeSformer：齐全基于 Transformer 的视频了解框架 TimeSformer 解析：视频了解中的 transformerTimeSformer：视频了解所需的只是时空注意力吗？

ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了！

在去年 Swin Transformer 取得 ICCV 2021 最佳论文后，微软亚洲研究院又在往年推出了视频畛域的佳作 Video Swin Transformer。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜，在动作辨认和时序建模工作上都优于 ViViT、TimeSformer 等网络！该模型在 Kinetics-400 上的准确率为 84.9% top-1，在 Something-Something v2 上的准确率为 69.6% top-1。

Video Swin Transformer: an illustrated example of 3D shifted windows 从图像畛域拓展到视频畛域，Swin Transformer 在原来的根底上引入局部性的演绎偏置，并且无效利用了预训练图像模型。与之前相比，Video Swin Transformer 即便时空合成也能够全局计算自注意力，因而可能更好地衡量速度与准确率。

参考资料：
模型用例：action-classification/video-swin-transformer
论文：Video Swin Transformer
官网阐明：屠榜视频了解几大工作！微软提出：Video Swin Transformer
其余材料：视频分类利器之 Video Swin Transformer

国产之光！高分时空表征学习模型 UniFormer

由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联结出品，SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在支流数据集上都获得了优良的问题：在 Kinetics-400/Kinetics600 上获得 82.9% / 84.8% top-1 精度；在 Something-Something V1 & V2 上获得 60.9% 和 71.2% top-1 精度。其论文一经发表，就取得了高分，最终收录于 ICLR 2022（初审评分高达 7.5 分：8 8 6 8）。

UniFormer ArchitectureUniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 构造，能在计算量和精度之间获得均衡。不同于传统的 Transformer 构造在所有层都应用自注意力机制，论文中提出的 relation aggregator 能够别离解决视频的冗余信息和依赖信息。在浅层，aggregator 利用一个小的 learnable matrix 学习部分的关系，通过聚合小的 3D 邻域的 token 信息极大地缩小计算量。在深层，aggregator 通过相似性比拟学习全局关系，能够灵便的建设远距离视频帧 token 之间的长程依赖关系。
参考资料：
模型用例：action-classification/video-swin-transformer
论文：UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING
更多材料：高分论文！UniFormer：高效时 - 空表征学习的对立 TransformerICLR2022 UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…)，您的关注是咱们用爱发电的弱小能源，欢送 star, fork, slack 三连 :)