关于机器学习:多模态模型-CLIP4Clip-带你实现文本与视频互搜

67次阅读

共计 561 个字符，预计需要花费 2 分钟才能阅读完成。

出品人 ：Towhee 技术团队

CLIP4Clip 以跨模态图文模型 CLIP 为根底，胜利地实现了文字 / 视频检索工作。无论是由文字寻找相干内容视频，还是主动为视频匹配最合适的形容，CLIP4Clip 都能帮你做到。通过大量的融化试验，CLIP4Clip 证实了本人的有效性，并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本 - 视频数据集上实现了 SoTA 后果。

CLIP4Clip: Main Structure

CLIP4Clip 基于预训练好的图文模型，通过迁徙学习或者微调实现视频检索的工作。它应用预训练的 CLIP 模型作为骨干网络，解决了从帧级输出的视频片段检索工作，并应用了无参数类型、序列类型和严密类型相似性计算器来取得最终后果。

相干材料：

模型用例: video-text-embedding/clip4clip
论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
更多材料：
CLIP4Clip: CLIP 再下一城，利用 CLIP 实现视频检索

更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…)，您的关注是咱们用爱发电的弱小能源，欢送 star, fork, slack 三连 :)

正文完

发表至：机器学习

2022-07-19

0

关于机器学习:2022年最有开创性的10篇AI论文总结

关于机器学习:机器学习K近邻算法

关于机器学习:MindSporeYOLOv3人体目标检测模型实现一

关于机器学习:机器学习工作坊-自然语言处理

关于服务器:融云推出实时社区解决方案垂直兴趣社交高级玩家上线

关于企业级:飞速创软-数字化转型对零售行业意味着什么