共计 2983 个字符,预计需要花费 8 分钟才能阅读完成。
周报出品人 :Towhee 技术团队
本周咱们分享 5 个视频相干的 AI 模型:
轻便好用的视频动作辨认模型系列 MoViNets、实现文本与视频跨模态搜寻的 CLIP4Clip、比 CLIP4Clip 更好的视频检索模型 DRL、挣脱视频数据局限的 Frozen in Time、对冠军模型 MMT 再次降级的 MDMMT。
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
MoViNets 系列模型,手机端实时分类视频的好帮手
须要视频了解,然而嫌模型太重、耗时太久?轻量动作辨认模型再次降级, 由谷歌研究院在 2021 年提出的 MoViNets 系列可能更加高效地在现推理流媒体视频,并反对施行分类挪动设施端捕捉的视频流 。MoViNets 在视频动作辨认的通用数据集 Kinetics、Moments in Tme 和 Charades 上均取得了先进的精度和效率,证实了其高效性和宽泛适用性。
MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation
MoViNets 是一个卷积神经网络系列,对 2D 视频分类器和 3D 视频分类器舍短取长,兼容它们的要害劣势,并加重各自的局限性。该系列模型通过神经构造搜寻取得丰盛的高效视频网络结构,援用流缓冲技术使得 3D 卷积可能承受任意长度的流视频序列,再简略地集成多个模型用于进步精度,最终无效地均衡计算量、内存开销、精度。
相干材料:
- 模型用例:action-classification/movinet
- 论文:MoViNets: Mobile Video Networks for Efficient Video Recognition
- 更多材料:MoViNets:让实时视频了解成为事实
多模态模型 CLIP4Clip 带你实现文本与视频互搜
CLIP4Clip 以跨模态图文模型 CLIP 为根底,胜利地实现了文字 / 视频检索工作。 无论是由文字寻找相干内容视频,还是主动为视频匹配最合适的形容,CLIP4Clip 都能帮你做到。 通过大量的融化试验,CLIP4Clip 证实了本人的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本 - 视频数据集上实现了 SoTA 后果。
CLIP4Clip: Main Structure
CLIP4Clip 基于预训练好的图文模型,通过迁徙学习或者微调实现视频检索的工作。它应用预训练的 CLIP 模型作为骨干网络,解决了从帧级输出的视频片段检索工作,并应用了无参数类型、序列类型和严密类型相似性计算器来取得最终后果。
相干材料:
- 模型用例: video-text-embedding/clip4clip
- 论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
- 更多材料:
CLIP4Clip: CLIP 再下一城,利用 CLIP 实现视频检索
领有更好的文本视频交互,DRL 拆散框架改良 CLIP4Clip
只管 CLIP4Clip 实现了跨模态文本 / 视频检索,但该网络结构仍然存在一些局限性或改良空间。于是 2022 年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。在视频检索工作中,改进后的模型大幅晋升了在各大文本视频数据集上的精度。
Overview of DRL for Text-Video Retrieval
CLIP4Clip 在计算文本和视频的类似度时,只思考了两个模态的总体表征,短少细粒度的交互。比方,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特色,那么模型可能会被其它视频帧的信息烦扰与误导。DRL 对 CLIP4Clip 提出两个重要改良,一个是 Weighted Token-wise Interaction,进行类似度的浓密预测,通过 max 操作找到潜在的激活的 token。另一个是 Channel Decorrelation Regularization,通道去相干正则能够缩小通道间信息的冗余和竞争,应用协方差矩阵度量通道上的冗余。
相干材料:
- 模型用例:
video-text-embedding/drl - 论文:
Disentangled Representation Learning for Text-Video Retrieval - 更多材料:
视频多模态预训练 / 检索模型
将图像视作视频快照,Frozen in Time 挣脱多模态视频检索的数据局限
牛津大学在 ICCV2021 发表了 Frozen in Time,灵便地利用文本 / 图像和文本 / 视频数据集,提供了端到端的视频图像联结编码器。该模型是对最近的 ViT 和 Timesformer 构造的批改和扩大,并且包含在空间和工夫上的注意力。
Frozen in Time: Joint Image and Video Training
Frozen in Time 能够独自或者联合应用文本图像和文本视频数据集进行训练。应用图像训练时,模型将其视为视频的解冻快照,在训练中逐步学习到工夫层面的上下文。此外,作者还提供了一个新的视频文本预训练数据集 WebVid-2M,蕴含 200 万多个视频。只管训练量相比其余通用数据集要小一个数量级,但试验表明,应用该数据集预训练的模型在规范的上游视频检索基准 (包含 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生 SOTA 的后果。
相干材料:
- 模型用例:
video-text-embedding/frozen-in-time - 论文:
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval - 更多材料:
ICCV2021-《Frozen in Time》- 牛津大学新的预训练视频文本数据集 WebVid-2M,设计用于端到端检索的联结视频和图像编码器!代码已开源!
从 MMT 到 MDMMT,全面优化文本视频检索
MDMMT 发表于 2021 年,是对前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 的一项扩大钻研。该钻研在训练数据集上进行了尝试和优化,继续领跑文本视频检索赛道。
MMT: Cross-modal Framework
MMT 用于提取、交融视频特色,包含图像特色、语音特色和语音对应的文字特色等。首先对于三个模态的解决别离采纳了预训练的专家网络提取特色,之后对于每一个模态特色,还会应用 maxpool 生成一个整合特色。将整合特色和对应的模态特色序列拼接,再把不同模态组特色拼接。还会对每个模态学习一个对应的模态标记特色插入,以及对应的不同帧特色插入。即对每个特色附加上属于的模态信息和帧序号信息。MDMMT 应用与 MMT 雷同的损失函数以及相近的构造,但在超参上有所优化。
相干材料:
- 模型用例:
video-text-embedding/mdmmt - 论文:
MDMMT: Multidomain Multimodal Transformer for Video Retrieval
Multi-modal Transformer for Video Retrieval - 更多材料:
视频多模态预训练 / 检索模型
更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)