关于人工智能:Towhee-每周模型

周报出品人：Towhee 技术团队

本周咱们分享 5 个视频相干的 AI 模型：

轻便好用的视频动作辨认模型系列 MoViNets、实现文本与视频跨模态搜寻的 CLIP4Clip、比 CLIP4Clip 更好的视频检索模型 DRL、挣脱视频数据局限的 Frozen in Time、对冠军模型 MMT 再次降级的 MDMMT。

如果你感觉咱们分享的内容还不错，请不要悭吝给咱们一些收费的激励：点赞、喜爱、或者分享给你的小伙伴。

MoViNets系列模型，手机端实时分类视频的好帮手

须要视频了解，然而嫌模型太重、耗时太久？轻量动作辨认模型再次降级，由谷歌研究院在2021年提出的 MoViNets 系列可能更加高效地在现推理流媒体视频，并反对施行分类挪动设施端捕捉的视频流。MoViNets 在视频动作辨认的通用数据集 Kinetics、Moments in Tme 和 Charades 上均取得了先进的精度和效率，证实了其高效性和宽泛适用性。

MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation

MoViNets 是一个卷积神经网络系列，对 2D 视频分类器和 3D 视频分类器舍短取长，兼容它们的要害劣势，并加重各自的局限性。该系列模型通过神经构造搜寻取得丰盛的高效视频网络结构，援用流缓冲技术使得3D卷积可能承受任意长度的流视频序列，再简略地集成多个模型用于进步精度，最终无效地均衡计算量、内存开销、精度。

相干材料：

模型用例：action-classification/movinet
论文：MoViNets: Mobile Video Networks for Efficient Video Recognition
更多材料：MoViNets：让实时视频了解成为事实

多模态模型 CLIP4Clip 带你实现文本与视频互搜

CLIP4Clip 以跨模态图文模型 CLIP 为根底，胜利地实现了文字/视频检索工作。无论是由文字寻找相干内容视频，还是主动为视频匹配最合适的形容，CLIP4Clip 都能帮你做到。通过大量的融化试验，CLIP4Clip 证实了本人的有效性，并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 后果。

CLIP4Clip: Main Structure

CLIP4Clip 基于预训练好的图文模型，通过迁徙学习或者微调实现视频检索的工作。它应用预训练的 CLIP 模型作为骨干网络，解决了从帧级输出的视频片段检索工作，并应用了无参数类型、序列类型和严密类型相似性计算器来取得最终后果。

相干材料：

模型用例: video-text-embedding/clip4clip
论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
更多材料：
CLIP4Clip: CLIP 再下一城，利用CLIP实现视频检索

领有更好的文本视频交互，DRL 拆散框架改良 CLIP4Clip

只管 CLIP4Clip 实现了跨模态文本/视频检索，但该网络结构仍然存在一些局限性或改良空间。于是2022年初，便有 DRL（Disentangled Representation Learning）跨模态匹配不同粒度的内容。在视频检索工作中，改进后的模型大幅晋升了在各大文本视频数据集上的精度。

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的类似度时，只思考了两个模态的总体表征，短少细粒度的交互。比方，当文字描述只对应了视频的一部分帧时，如果抽取视频的整体特色，那么模型可能会被其它视频帧的信息烦扰与误导。DRL对 CLIP4Clip 提出两个重要改良，一个是 Weighted Token-wise Interaction，进行类似度的浓密预测，通过 max 操作找到潜在的激活的 token。另一个是Channel Decorrelation Regularization，通道去相干正则能够缩小通道间信息的冗余和竞争，应用协方差矩阵度量通道上的冗余。

相干材料:

模型用例:
video-text-embedding/drl
论文:
Disentangled Representation Learning for Text-Video Retrieval
更多材料：
视频多模态预训练/检索模型

将图像视作视频快照，Frozen in Time 挣脱多模态视频检索的数据局限

牛津大学在 ICCV2021 发表了 Frozen in Time，灵便地利用文本/图像和文本/视频数据集，提供了端到端的视频图像联结编码器。该模型是对最近的 ViT 和 Timesformer 构造的批改和扩大，并且包含在空间和工夫上的注意力。

Frozen in Time: Joint Image and Video Training

Frozen in Time 能够独自或者联合应用文本图像和文本视频数据集进行训练。应用图像训练时，模型将其视为视频的解冻快照，在训练中逐步学习到工夫层面的上下文。此外，作者还提供了一个新的视频文本预训练数据集 WebVid-2M ，蕴含200万多个视频。只管训练量相比其余通用数据集要小一个数量级，但试验表明，应用该数据集预训练的模型在规范的上游视频检索基准 (包含 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生SOTA的后果。

相干材料：

模型用例:
video-text-embedding/frozen-in-time
论文:
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
更多材料：
ICCV2021-《Frozen in Time》-牛津大学新的预训练视频文本数据集WebVid-2M，设计用于端到端检索的联结视频和图像编码器！代码已开源！

从 MMT 到 MDMMT，全面优化文本视频检索

MDMMT 发表于 2021 年，是对前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 的一项扩大钻研。该钻研在训练数据集上进行了尝试和优化，继续领跑文本视频检索赛道。

MMT: Cross-modal Framework

MMT 用于提取、交融视频特色，包含图像特色、语音特色和语音对应的文字特色等。首先对于三个模态的解决别离采纳了预训练的专家网络提取特色，之后对于每一个模态特色，还会应用 maxpool 生成一个整合特色。将整合特色和对应的模态特色序列拼接，再把不同模态组特色拼接。还会对每个模态学习一个对应的模态标记特色插入，以及对应的不同帧特色插入。即对每个特色附加上属于的模态信息和帧序号信息。MDMMT 应用与 MMT 雷同的损失函数以及相近的构造，但在超参上有所优化。

相干材料:

模型用例：
video-text-embedding/mdmmt
论文:
MDMMT: Multidomain Multimodal Transformer for Video Retrieval
Multi-modal Transformer for Video Retrieval
更多材料：
视频多模态预训练/检索模型

更多我的项目更新及具体内容请关注咱们的我的项目( https://github.com/towhee-io/…) ，您的关注是咱们用爱发电的弱小能源，欢送 star, fork, slack 三连 🙂

关于人工智能:Towhee-每周模型

MoViNets系列模型，手机端实时分类视频的好帮手

多模态模型 CLIP4Clip 带你实现文本与视频互搜

领有更好的文本视频交互，DRL 拆散框架改良 CLIP4Clip

将图像视作视频快照，Frozen in Time 挣脱多模态视频检索的数据局限

从 MMT 到 MDMMT，全面优化文本视频检索

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:Towhee-每周模型

MoViNets系列模型，手机端实时分类视频的好帮手

多模态模型 CLIP4Clip 带你实现文本与视频互搜

领有更好的文本视频交互，DRL 拆散框架改良 CLIP4Clip

将图像视作视频快照，Frozen in Time 挣脱多模态视频检索的数据局限

从 MMT 到 MDMMT，全面优化文本视频检索

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复