共计 3584 个字符,预计需要花费 9 分钟才能阅读完成。
本周将持续举荐 5 个视频畛域的 SoTA 模型:
MPViT 通过多嵌入和多路径摸索多种视觉工作、BridgeFormer 利用别样的选择题训练形式减速视频文本检索、SVT 用自蒸馏让视觉 Transformer 训练解脱比照学习、CoFormer 交融动作分类和物体检测来辨认视频中的情境、ActionCLIP 用检索工作开辟动作辨认新思路。
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/…
领跑多种视觉工作,CVPR 2022 最新 backbone:多块嵌入、多路径的 MPViT
出品人:Towhee 技术团队 张晨、顾梦佳
MPViT (Multi-path Vision Transformer, 多路径 Vision Transformer)¹ 专一于应用视觉 Transformers 无效地示意多尺度特色以进行密集预测工作。宽泛的试验结果表明 MPViT 能够作为各种视觉工作的多功能骨干网络,比方在图像分类、指标检测、实例宰割、和语义宰割上均能获得 state-of-the-art 后果。作者团队凋谢了 tiny、xsmall、small、base 几种不同大小的模型预训练权重,这些轻量的预训练模型通过较小的参数量和计算量就能获得很好的精度。
MPViT 通过摸索多尺度块嵌入与多路径构造,联合重叠卷积块嵌入,能够同时对不同尺度、雷同序列长度特色进行嵌入聚合。不同尺度的 Token 别离送入到不同的 Transformer 模块(即并行多路径构造)中,以构建同特色层级的粗粒度与细粒度特色的。多尺度 patch embedding 通过重叠卷积操作同时对不同大小的视觉 patch 进行 token 化,在适当调整后失去具备雷同序列长度(即特色分辨率)的特色。卷积的填充 / 步幅。而后,来自不同尺度的 token 被独立地并行馈送到 Transformer 编码器中。每个具备不同大小 token 的 Transformer 编码器都执行全局自注意力。而后聚合生成的特色,在雷同的特色级别上实现粗粒度与细粒度的特色示意。在特色聚合步骤中,引入了全局到部分特色交互(Global-to-Local Feature Interaction, GLI)过程,该过程将卷积部分特色连贯到 Transformer 的全局特色,同时利用卷积的部分连通性和全局上下文。这样的多个 patch embedding 和 block 重叠后就是这样一个 MPViT 的网络 backbone。
相干材料:
- 模型用例(Towhee Operator):image-embedding/mpvit
- 论文:MPViT: Multi-Path Vision Transformer for Dense Prediction
更多材料:
- http://aijishu.com/a/10600000…
- https://blog.csdn.net/amusi19…
- https://www.w3cjava.com/techn…
港大 & 腾讯 & 伯克利提出视频文本检索新 SoTA BridgeFormer: 速度和深度交互我都要!
出品人:Towhee 技术团队 徐锦玲、顾梦佳
由港大 & 腾讯 & 伯克利联结提出,以“多项选择题”的形式训练 BridgeFormer² 学习细粒度的视频和文本特色。由文本形成选择题,训练模型从视频内容中寻找答案。该办法可能实现高效的上游视频检索工作,在多个视频检索数据集上都刷新了性能 SoTA。
以往的视频文本检索模型采纳两个离开的 Encoder(Dual-Encoder)或者一个 Encoder 进行建模,导致速度和多模态之间的深度交互不能兼得。这次提出的新架构在 Dual-Encoder 的根底上引入可拆卸模块 BridgeFormer,并退出新的工作——多项抉择。它在结构训练样本时遮蔽文本中的名词和动词,应用 比照学习 的模式进行训练,在推理时间接移除 BridgeFormer 模块。这种办法不仅能够实现训练时的多模态信息之间的深度交互,而且保障了推理时的速度。
相干材料:
- 模型用例(Towhee Operator):video-text-embedding/bridge-former
- 论文链接:Bridging Video-text Retrieval with Multiple Choice Questions
- 更多材料:https://cloud.tencent.com/developer/article/2013425
没有比照学习也能够自监督预训练 Video Transformers
出品人:Towhee 技术团队徐锦玲、顾梦佳
SVT (Self-Supervised Video Transformer)³ 解脱了比照学习范式,搭上了自蒸馏学习桥梁。它不仅在视频动作辨认工作上可能以更小的 batch size 获得更好的性能,还升高了对数据的要求,并缩小了训练老本。
目前很多在视频上的自监督预训练模型,都是采纳比照学习的形式进行训练,然而这种形式须要大的 batch size,更长的训练工夫,精密的 negative 样本开掘、以及更大的内存,并须要较好的工夫采样策略,和寻找雷同 / 不同的 clip 去减小损失。
SVT 不再应用比照学习的训练形式,而是训练 teacher 和 student 网络,采纳自蒸馏的形式进行自监督训练 video transformers。其提出了 Global views 和 Local views,通过匹配 Global views 与 Global views、Global views 与 Local views 进行别离学习动作一致性(Motion Correspondences)和穿插视角一致性(Cross-View Correspondences)。在推理时,SVT 只应用 student 网络以放慢推理速度。
相干材料:
- 模型代码:towhee.models.svt
- 论文:https://arxiv.org/abs/2112.01514
CoFormer 带你理解视频了解畛域的情境辨认工作
出品人:Towhee 技术团队 顾梦佳、葛新昱
情境辨认工作分为三个预测工作:辨认视频中的次要流动、判断在流动中表演特定角色的实体、寻找给定视频帧中实体的边界框。为了无效地解决这一具备挑战性的工作,CVPR 2022 收录了该畛域的 SoTA 模型 CoFormer⁴ (Collaborative Transformers for Grounded Situation Recognition,合作式扫视 - 凝视变换器),其中介绍了一种新的架构,使流动分类和实体辨认的两个过程可能交互和互补。该模型在 SWiG 数据集上的所有评估指标上都达到了最先进的程度。
CoFormer 由两个模块组成:用于流动分类的 Glance Transformer(扫视)和用于实体辨认的 Gaze Transformer(凝视)。Glance transformer 通过剖析实体及其相干的 Gaze Transformer 预测次要流动,而 Gaze Transformer 只关注与 Glance Transformer 预测的流动相干的物体。
相干材料:
- 模型代码:towhee.models.coformer
- 论文:https://arxiv.org/abs/2203.16518
用检索取代分类,浙大提出视频动作辨认新范式 ActionCLIP
出品人:Towhee 技术团队 顾梦佳
做视频动作辨认,还在为标签文本的有余而懊恼吗?一改以往繁多模态分类工作的办法,ActionCLIP 提供了一种新计划:应用预训练的多模态模型,通过检索的办法辨认视频动作。这种新范式不仅可能在视频动作辨认的通用数据集上达到 SoTA 性能(ViT-B/16 backbone 在 Kinetics-400 上可能实现 83.8% 的 top- 1 准确率),还具备灵便的迁徙能力,无需额定标签数据,就能被利用到新的场景中。
ActionCLIP⁵器重标签文本的语义信息,而不是简略地将标签映射成数字,为动作辨认提供了一个新的视角。由此,动作辨认工作被转换为多模态学习框架内的视频文本匹配问题,不再强烈依赖时空特色。ActionCLIP 次要分为预训练、提醒和微调三个局部,应用大量的图像文本或视频文本预训练失去的特色示意,通过提醒转换动作辨认工作,最初对指标数据集进行微调。
相干材料:
- 模型用例:action_classification/actionclip
- 论文:ActionCLIP: A New Paradigm for Video Action Recognition
- 其余材料:
降维打击!基于多模态框架的行为辨认新范式
更多我的项目更新及具体内容请关注咱们的我的项目(https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)