出品人 :Towhee 技术团队
由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联结出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在支流数据集上都获得了优良的问题:在 Kinetics-400/Kinetics600 上获得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上获得 60.9% 和 71.2% top-1 精度。其论文一经发表,就取得了高分,最终收录于 ICLR 2022(初审评分高达 7.5 分: 8 8 6 8)。
| UniFormer Architecture
UniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 构造,能在计算量和精度之间获得均衡。不同于传统的 Transformer 构造在所有层都应用自注意力机制,论文中提出的 relation aggregator 能够别离解决视频的冗余信息和依赖信息。在浅层,aggregator 利用一个小的 learnable matrix 学习部分的关系,通过聚合小的 3D 邻域的 token 信息极大地缩小计算量。在深层,aggregator 通过相似性比拟学习全局关系,能够灵便的建设远距离视频帧 token 之间的长程依赖关系。
参考资料:
模型用例:action-classification/video-swin-transformer
论文:[UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT
SPATIOTEMPORAL REPRESENTATION LEARNING](https://arxiv.org/pdf/2201.04…)
更多材料:
高分论文!UniFormer:高效时 - 空表征学习的对立 Transformer
ICLR2022 UniFormer:无缝集成 Transformer,更高效的时空表征学习框架
更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)