共计 666 个字符,预计需要花费 2 分钟才能阅读完成。
出品人 :Towhee 技术团队
只管 CLIP4Clip 实现了跨模态文本 / 视频检索,但该网络结构仍然存在一些局限性或改良空间。于是 2022 年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。在视频检索工作中,改进后的模型大幅晋升了在各大文本视频数据集上的精度。
Overview of DRL for Text-Video Retrieval
CLIP4Clip 在计算文本和视频的类似度时,只思考了两个模态的总体表征,短少细粒度的交互。比方,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特色,那么模型可能会被其它视频帧的信息烦扰与误导。DRL 对 CLIP4Clip 提出两个重要改良,一个是 Weighted Token-wise Interaction,进行类似度的浓密预测,通过 max 操作找到潜在的激活的 token。另一个是 Channel Decorrelation Regularization,通道去相干正则能够缩小通道间信息的冗余和竞争,应用协方差矩阵度量通道上的冗余。
相干材料 :
- 模型用例:
video-text-embedding/drl - 论文:
Disentangled Representation Learning for Text-Video Retrieval - 更多材料:
视频多模态预训练 / 检索模型
更多我的项目更新及具体内容请关注咱们的我的项目 (https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)
正文完