关于机器学习:拥有更好的文本视频交互DRL-分离框架改进-CLIP4Clip

38次阅读

共计 666 个字符，预计需要花费 2 分钟才能阅读完成。

出品人 ：Towhee 技术团队

只管 CLIP4Clip 实现了跨模态文本 / 视频检索，但该网络结构仍然存在一些局限性或改良空间。于是 2022 年初，便有 DRL（Disentangled Representation Learning）跨模态匹配不同粒度的内容。在视频检索工作中，改进后的模型大幅晋升了在各大文本视频数据集上的精度。

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的类似度时，只思考了两个模态的总体表征，短少细粒度的交互。比方，当文字描述只对应了视频的一部分帧时，如果抽取视频的整体特色，那么模型可能会被其它视频帧的信息烦扰与误导。DRL 对 CLIP4Clip 提出两个重要改良，一个是 Weighted Token-wise Interaction，进行类似度的浓密预测，通过 max 操作找到潜在的激活的 token。另一个是 Channel Decorrelation Regularization，通道去相干正则能够缩小通道间信息的冗余和竞争，应用协方差矩阵度量通道上的冗余。

相干材料 ：