关于人工智能:CVPR2022比VinVL快一万倍人大提出交互协同的双流视觉语言预训练模型COTS又快又好

有用的话文末帮忙点个赞哦🥰\~

大规模的单流预训练在图文检索中体现出显着的性能。遗憾的是，因为注意力层重，它面临着推理效率低的问题。最近，具备高推理效率的 CLIP 和 ALIGN 等双流办法也显示出了可观的性能，然而它们只思考了两个流之间的实例级对齐（因而仍有改良的空间）。为了克服这些限度，作者提出了一种 新的合作双流视觉语言预训练模型 ，称为 COTS，用于通过加强跨模态交互来进行图像文本检索。除了通过动量比照学习进行实例级对齐之外，作者还在 COTS 中利用了两个额定级别的跨模态交互：(1) token 级交互——在不应用跨流网络的状况下设计了掩蔽视觉语言建模 (MVLM) 学习指标模块，其中变分主动编码器被施加在视觉编码器上，为每个图像生成视觉 token。(2) 工作级交互——在文本到图像和图像到文本检索工作之间设计了一个 KL 对齐学习指标，其中每个工作的概率分布是用动量比照学习中的负队列计算的。在偏心的比拟设置下，COTS 在所有双流办法中实现了最高性能和可比性能（但推理速度快 10,800 倍）。重要的是，本文的 COTS 也实用于文本到视频的检索，在宽泛应用的 MSR-VTT 数据集上产生了新的最新技术。

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

论文地址：https://arxiv.org/abs/2204.07441

代码地址：未开源

pretrain-then-finetune 范式在自然语言解决 (NLP) 畛域获得了巨大成功，其中模型首先应用大规模数据（例如 BERT、RoBERTa 和 GPT3），而后针对每个上游工作进行微调。最近，在视觉语言 (VL) 畛域也显示了它的有效性，其中在各种 VL 工作（例如，图像文本检索、视频文本检索和视觉问题答复）通过视觉语言预训练（VLP）失去了显着改善。VLP 模型通常以微小的图像 - 文本对作为输出，旨在学习具备单模态和跨模态预训练指标的联结图像 - 文本示意，例如掩码 token 预测和图像 - 文本匹配。

现有的 VLP 模型能够分为两类：单流模型和双流模型。单流 VLP 模型（见上图 (a)）通常利用跨模态交融模块（例如，Transformer 层）来模仿图像区域和文本词之间的细粒度交互。只管这些模型获得了可喜的性能，但它们有两个局限性：（1） 在推理过程中，所有可能的查问 - 候选对都须要输出交融模块来计算类似度分数，从而导致微小的计算成本。 (2)为了取得有意义的图像区域，单流模型通常采纳指标检测器，其计算和数据标注都十分低廉。例如，对于 Faster RCNN，从 800×1,333 图像中提取对象区域大概须要 900 毫秒，而基于 ViT 的只须要 15 毫秒（即快 60 倍）。相比之下，双流 VLP 模型利用独自的图像和文本编码器，并在最终嵌入级别上匹配图像 - 文本对。只管双流模型（见图(b)–(c)）比单流模型更无效，但因为不足更严密的图像 - 文本交互，它们只能达到次优后果。因而，一些工作（参见上图(b)）重新考虑了指标检测器，而最近的一些工作（例如，CLIP、ALIGN 和 WenLan）采纳超大预 - 从互联网上抓取的训练数据。然而，他们依然无奈对两种模态之间的细粒度交互进行建模。

为了解决单流 VLP 模型的低效率和两流模型不足更严密的视觉语言交互的问题，作者提出了一种新的合作双流视觉语言预训练模型，称为 COTS，用于跨模态检索，既保留了实时推理速度的劣势，又加强了两种模态之间的交互（见上图（d））。具体来说，作者在 COTS 中思考了三个级别的跨模态交互：（1）实例级交互 ——通过动量比照设计了最终嵌入级别的图像 - 文本匹配学习指标（通常由双流 VLP 模型采纳），留神这个保护两个样本队列（每种模态一个）以领有大量的负样本。(2) token 级交互——在不应用任何跨流网络模块的状况下，思考了一种新鲜的 mask 视觉语言建模 (MVLM) 学习指标。为此，作者首先对每个输出图像 - 文本对的图像和文本进行标记，其中变分主动编码器被施加在视觉编码器（例如，ViT）上以生成视觉 token，文本编码器采纳 BERT。而后，作者依据未屏蔽的视觉标记和每个图像配对文本的特色执行屏蔽视觉标记预测，并相似地执行屏蔽语言标记预测。(3) 工作级交互——通过最小化两个检索工作的概率分布之间的 Kullback-Leibler (KL) 一致，在文本到图像和图像到文本检索工作之间设计了一种新的 KL 对齐学习指标。对于每个图像 - 文本对，应用动量比照学习中放弃的负图像队列中所选文本与其未配对图像的相似性，取得文本到图像检索工作的概率分布，能够失去另一个散布类似地。

随着预训练数据的规模越来越大（例如，从互联网上爬取的数千万甚至数十亿的图文对），无奈进行人工标注，因而在大规模数据中不可避免地存在噪声。噪声数据，例如不匹配的图像 - 文本对和齐全无意义的数据，可能会给预训练带来负面影响。因而，在本文中，COTS 提出了一个 自适应动量滤波器 (AMF) 模块，该模块能够充分利用基于比照学习的训练算法中的动量机制。具体来说，首先从动静保护的图像和文本队列中计算所有图像 - 文本对的类似度得分，以取得一个额定的队列。此外，将此类似度分数队列建模为正态分布，并动静过滤掉具备散布均值和方差的噪声数据。

本文的奉献总结如下：（1）提出了一种新鲜的协同双流（COTS）VLP 模型，以进步双流模型的性能并同时放弃其效率劣势。除了典型的实例级对齐之外，作者还通过利用两个额定级别的跨模态交互来实现这一点：一个用于 token 级交互的掩蔽视觉语言建模 (MVLM) 学习指标，以及一个用于工作级交互的 KL 对齐学习指标。（2）为了加重大规模预训练数据中噪声造成的负面影响，作者提出了自适应动量滤波器（AMF）模块。AMF 在实例级对齐中充分利用动量机制，并在预训练期间自适应地过滤噪声图像 - 文本对。(3) 在偏心的比拟设置下，COTS 在所有双流办法中实现了最高性能，并且与最新的单流办法性能相当（但推理速度快了 10,800 倍）。重要的是，COTS 也实用于文本到视频的检索，在宽泛应用的 MSR-VTT 数据集上产生了新的 SOTA。

用于 VLP 的 COTS 模型的指标是学习两个独立的编码器，它们能够将图像和文本样本嵌入到雷同的语义空间中，以实现无效的跨模态检索。如上图所示，图像和文本别离由视觉 Transformer 和语言 Transformer 编码。而后，作者设计了三个级别的跨模态交互作为 COTS 的预训练指标。具体来说，实例级交互通过动量跨模态比照学习来对齐配对图像和文本的全局特色，其灵感来自单模态 MoCo。为了模仿比实例级对齐更严密的交互，作者提出设计一个蒙面视觉语言建模（MVLM）损失来加强 token 级交互。MVLM 有两局部：跨模态掩蔽视觉建模（CMVM）和跨模态掩蔽语言建模（CMLM）。对于每张图像，CMVM 旨在依据未屏蔽的图像块标记及其配对文本的全局特色来预测屏蔽图像块标记的标签。CMLM 在语言方面也做相似的事件。此外，作者在 COTS 中思考工作级交互，旨在对齐文本到图像和图像到文本检索工作的概率分布。此外，为了应答大规模预训练数据中的噪声，作者提出了一种自适应动量滤波器（AMF）模块，该模块无缝集成到预训练过程中。

作者在 COTS 中采纳双流架构的抉择有两个次要长处：（1）实时推理速度 ——拆散的图像和文本编码器容许事后计算候选者的特色以进行跨模态检索工作，并且只需一个简略的点积为每个查问 - 候选对类似度。(2) 实用于文本到视频检索——无需任何批改，COTS 能够间接利用于文本到视频检索工作，其中视频示意能够通过均匀图像编码器取得的帧嵌入来取得。

作者设计了一个掩蔽视觉语言建模 (MVLM) 损失来加强 COTS 中的 token 级交互，它能够进一步分为两局部：跨模态掩蔽视觉建模 (CMVM) 和 跨模态掩蔽语言建模 (CMLM) 。为了改良应用重检测器预测蒙幅员像区域标签的实际，作者引入了基于受 BEIT 启发的图像标记器的 CMVM。对于每个图像，CMVM 的指标是应用未掩码的图像块和配对文原本预测掩码图像标记的标签。

模式上，令 $\mathcal{D}=\left\{\left(v_{i}, l_{i}\right)\right\}_{i=1}^{N}$ 示意训练数据集，其中 $\left(v_{i}, l_{i}\right)$ 是第 i 个图像 - 文本对。对于每个原始图像 $v_{i}$，首先应用事后训练的离散变分主动编码器 (dVAE) 为图像标记器，以取得 24 × 24 离散图像标记的序列 $\mathcal{T}_{i}^{v}=\left\{t_{i, j}^{v} \in \mathcal{V}^{v}\right\}_{j=1}^{576}$，其中 $t_{i, j}^{v}$ 是图像 $v_{i}$ 的第 j 个标记，$\mathcal{V}^{v}$ 是离散图像标记的词汇表。同时，原始图像被宰割成 24×24 的块，这些块被输出到视觉 Transformer 中以取得它们的嵌入。而后，咱们依据掩码标记嵌入和配对文本的全局嵌入的总和来预测每个掩码标记的标签。因而，CMVM 损失能够示意为：

$$
\mathcal{L}_{\mathrm{CMVM}}=-\mathbb{E}_{\left(v_{i}, l_{i}\right) \sim \mathcal{D}} \log P\left(t_{i, j}^{v} \mid t_{i, \backslash j}^{v}, l_{i}\right)
$$

其中 $t_{i, j}^{v}$ 示意指标 / 掩码图像标记，$t_{i, \backslash j}^{v}=\mathcal{T}_{i}^{v} \backslash\left\{t_{i, j}^{v}\right\}$ 示意未掩码图像标记。

与 CMVM 相似，对于每一段文本 $l_{i}$，CMLM 的指标是依据未掩码的词和配对图像预测每个掩码词标记的标签：

$$
\mathcal{L}_{\mathrm{CMLM}}=-\mathbb{E}_{\left(v_{i}, l_{i}\right) \sim \mathcal{D}} \log P\left(t_{i, j}^{l} \mid t_{i, \backslash j}^{l}, v_{i}\right),
$$

其中 $t_{i, j}^{l}$ 示意指标 / 掩码文本词标记，$t_{i, \backslash j}^{l}$ 示意未掩码词。token 级跨模式交互的总损失而后定义为：

$$
\mathcal{L}_{\text {token}}=\mathcal{L}_{\mathrm{CMVM}}+\mathcal{L}_{\mathrm{CMLM}} .
$$

为了在 COTS 中对两种模态（即全局特色对齐）的实例级交互进行建模，作者采纳了一种受单模态 MoCo 启发的跨模态动量比照学习（MCL）算法，它提供了一种机制动静保护负样本队列以进行比照学习。因为本文的 MCL 中应用的两个队列（每种模态一个）胜利地将队列大小与 mini-batch 大小拆散，负样本的大小（对于比照学习至关重要）可能比 mini-batch 大小大得多。

具体来说，让 $f^{v}$（带有参数 $θ^v$）和 $f^l$（带有参数 $θ^l$）别离示意图像和文本编码器。别离为视觉和语言模态采纳两个额定的动量编码器 $\widehat{f} v$（带有参数 $\hat{\theta}^{v}$）和 $\hat{f}^{l}$（带有参数 $\hat{\theta}^{l}$）。动量编码器的参数通过以下形式更新：

$$
\hat{\theta}^{v}=m \cdot \hat{\theta}^{v}+(1-m) \cdot \theta^{v}\\\hat{\theta}^{l}=m \cdot \hat{\theta}^{l}+(1-m) \cdot \theta^{l}
$$

其中 m 是动量超参数。

此外，作者保护两个队列 $\mathcal{Q}^{v}=\left\{\hat{\mathbf{q}}_{j}^{v}\right\}_{j=1}^{N_{q}}$ 和 $\mathcal{Q}^{l}=\left\{\hat{\mathbf{q}}_{j}^{l}\right\}_{j=1}^{N_{q}}$ 其中 $\hat{\mathbf{q}}_{j}^{v} / \hat{\mathbf{q}}_{j}^{l}$ 示意动量特征向量，Nq 示意队列大小。每个 mini-batch 中的样本 $\mathcal{B}=\left\{\left(v_{i}, l_{i}\right)\right\}_{i=1}^{N_{b}} \subseteq \mathcal{D}\left(N_{b}=|\mathcal{B}| \ll N_{q}\right)$ 被送入以后动量编码器以取得动量特色，而后在损失计算后将其推入相应的队列。同时，每个队列中最早的 $N_{b}$ 个动量特征向量被弹出。给定数据 batch 中的每张图像，通过将其配对文本视为正样本，将 $\mathcal{Q}^{l}$ 中的所有样本视为负样本，将图像到文本的比照损失定义为（τ 是温度超参数）：

$$
\mathcal{L}_{\mathrm{I} 2 \mathrm{~T}}=-\frac{1}{N_{b}} \sum_{\left(v_{i}, l_{i}\right) \in \mathcal{B}} \log \frac{\operatorname{pos}\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{f}}_{i}^{l}, \tau\right)}{\operatorname{pos}\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{f}}_{i}^{l}, \tau\right)+\operatorname{neg}\left(\mathbf{f}_{i}^{v}, \mathcal{Q}^{l}, \tau\right)}
$$

其中 $\mathbf{f}_{i}^{v}=f^{v}\left(v_{i}\right), \hat{\mathbf{f}}_{i}^{l}=\hat{f}^{l}\left(l_{i}\right)$，并且

$$
\begin{aligned} \operatorname{pos}\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{f}}_{i}^{l}, \tau\right) &=\exp \left(\mathbf{f}_{i}^{v} \cdot \hat{\mathbf{f}}_{i}^{l} / \tau\right) \\ \operatorname{neg}\left(\mathbf{f}_{i}^{v}, \mathcal{Q}^{l}, \tau\right) &=\sum_{\hat{\mathbf{q}}_{j}^{l} \in \mathcal{Q}^{l}} \exp \left(\mathbf{f}_{i}^{v} \cdot \hat{\mathbf{q}}_{j}^{l} / \tau\right) \end{aligned}
$$

两个特征向量的类似度在这里用点积来掂量。同样，给定数据 batch 中的每个文本，作者将文本到图像的比照损失定义为：

$$
\mathcal{L}_{\mathrm{T} 2 \mathrm{I}}=-\frac{1}{N_{b}} \sum_{\left(v_{i}, l_{i}\right) \in \mathcal{B}} \log \frac{\operatorname{pos}\left(\mathbf{f}_{i}^{l}, \hat{\mathbf{f}}_{i}^{v}, \tau\right)}{\operatorname{pos}\left(\mathbf{f}_{i}^{l}, \hat{\mathbf{f}}_{i}^{v}, \tau\right)+\operatorname{neg}\left(\mathbf{f}_{i}^{l}, \mathcal{Q}^{v}, \tau\right)}
$$

其中 $\mathbf{f}_{i}^{l}=f^{l}\left(l_{i}\right)$，且 $\hat{\mathbf{f}}_{i}^{v}=\hat{f}^{v}\left(v_{i}\right)$。而后将的实例级跨模态交互的总损失定义为：

$$
\mathcal{L}_{\text {inst}}=\mathcal{L}_{\mathrm{I} 2 \mathrm{~T}}+\mathcal{L}_{\mathrm{T} 2 \mathrm{I}}
$$

对于 mini-batch 中的每个图像 $v_{i}$，图像到文本的比照指标实际上是最大化其配对文本 $l_{i}$ 与 $\mathcal{Q}^{l}$ 中未匹配样本的匹配概率（文本侧也是如此）。也就是说，实例级特色对齐只关怀最大化图像到文本 / 文本到图像检索工作的整个概率分布中的一个特定概率，而无奈捕捉两种模态之间更高级别的交互。为了填补文献中的空白，作者提出将两个跨模式检索工作的概率分布对齐作为工作级交互。

具体来说，对于每个图像 - 文本对 $\left(v_{i}, l_{i}\right) \in \mathcal{B}$，作者将图像 - 文本工作的概率分布定义为：

$$
\mathcal{D}_{\mathrm{I} 2 \mathrm{~T}}=\left[p\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{f}}_{i}^{l}\right), p\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{q}}_{1}^{l}\right), \cdots, p\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{q}}_{N_{q}}^{l}\right)\right]
$$

其中：

$$
p\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{f}}_{i}^{l}\right)=\frac{\exp \left(\mathbf{f}_{i}^{v} \cdot \hat{\mathbf{f}}_{i}^{l} / \tau\right)}{\sum_{\hat{\mathbf{f}}_{1} \in\left\{\hat{\mathbf{f}}_{i}^{l}\right\} \cup \mathcal{Q}^{l}} \exp \left(\mathbf{f}_{i}^{v} \cdot \hat{\mathbf{f}} / \tau\right)}
$$

和 $p\left(\mathbf{f}_{i}^{v}, \hat{\mathbf{q}}_{j}^{l}\right)\left(\hat{\mathbf{q}}_{j}^{l} \in \mathcal{Q}^{l}, j=1,2, \cdots, N_{q}\right)$ 能够用同样的办法计算取得文本到图像工作的概率分布为：

$$
\mathcal{D}_{\mathrm{T} 2 \mathrm{I}}=\left[p\left(\mathbf{f}_{i}^{l}, \hat{\mathbf{f}}_{i}^{v}\right), p\left(\mathbf{f}_{i}^{l}, \hat{\mathbf{q}}_{1}^{v}\right), \cdots, p\left(\mathbf{f}_{i}^{l}, \hat{\mathbf{q}}_{N_{q}}^{v}\right)\right]
$$

而后，本文的工作级跨模态交互的学习指标被表述为最小化 $\mathcal{D}_{\mathrm{I2T}}$ 和 $\mathcal{D}_{\mathrm{T} 2 I}$ 之间的对称 Kullback-Leibler (KL) 散度：

$$
\mathcal{L}_{\text {task}}=\frac{1}{N_{b}} \sum_{\left(v_{i}, l_{i}\right) \in \mathcal{B}}\left(\mathrm{KL}\left(\mathcal{D}_{\mathrm{I} 2 \mathrm{~T}} \| \mathcal{D}_{\mathrm{T} 2 \mathrm{I}}\right)+\mathrm{KL}\left(\mathcal{D}_{\mathrm{T} 2 \mathrm{I}} \| \mathcal{D}_{\mathrm{I} 2 \mathrm{~T}}\right)\right)
$$

大规模的网络爬取数据不可避免地蕴含噪声，这可能会给预训练带来负面影响。因而，基于 COTS 中采纳的动量机制，作者提出了一种自适应动量滤波器 (AMF) 模块来自适应地过滤噪声图像 - 文本对。

正如在实例级交互中介绍的那样，本文的 COTS 动静保护两个样本队列 $\mathcal{Q}^{v}$ 和 $\mathcal{Q}^{l}$ 用于动量比照学习。因为成对的图像和文本同时被推入或弹出相应的队列，所以 $\hat{\mathbf{q}}_{j}^{v} \in \mathcal{Q}^{v}$ 和 $\hat{\mathbf{q}}_{j}^{l} \in \mathcal{Q}^{l}$$\left(j=1,2, \cdots, N_{q}\right)$ 也是成对的。而后，能够通过点积计算每对 $\left(\hat{\mathbf{q}}_{j}^{v}, \hat{\mathbf{q}}_{j}^{l}\right)$ 的类似度得分。这样，咱们失去一个额定的类似度队列 $Q^s =\left{\hat{\mathbf{q}}_{j}^{v} \cdot \hat{\mathbf{q}}_{j}^{l} \mid \hat{\mathbf{q}}_{j}^{v} \in \mathcal{Q}^{v}, \hat{\mathbf{q}}_{j}^{l} \in \mathcal{Q}^{l}\right}_{j=1}^{N_{q}}$，它也与两个样本队列一起动静保护。

请留神，类似度队列 $\mathcal{Q}^{5}$ 能够看作是当预训练迭代中类似度得分散布的采样。首先计算其均值 μ 和标准差 σ 作为类似度分数散布的估计值。而后，基于 μ 和 σ（例如，$s_{\mathrm{AMF}}=\mu-2 \sigma$）取得 AMF 的阈值 sAMF。最初，在计算损失之前应用这个阈值来过滤以后数据 batch B：

$$
\mathcal{B}^{*}=\left\{\left(v_{i}, l_{i}\right) \mid \hat{\mathbf{f}}_{i}^{v} \cdot \hat{\mathbf{f}}_{i}^{l}>s_{\mathrm{AMF}},\left(v_{i}, l_{i}\right) \in \mathcal{B}\right\}
$$

在这项工作中，sAMF 在不同的训练迭代中随着类似度队列的变动而变动。具体来说，当在残缺 COTS 中采纳 AMF 时，在每次迭代中应用 $\mathcal{B}^{-}$ 而不是 B 进行损失计算，然而在计算损失后咱们依然将 B 中的所有样本推入 $\mathcal{Q}^{v}$ 和 $\mathcal{Q}^{l}$。

作者将 COTS 与两个宽泛应用的图像文本数据集上的最先进办法进行比拟：Flickr30K 和 MSCOCO。后果如上表所示，本文办法实现了十分好的检索性能。

在上图中，作者将 COTS 与最近对于 MSCOCO (5K) 测试集推理工夫的最新技术进行了比拟。所有办法均在单个 Tesla V100 GPU 上进行评估。与单流 VinVL 相比，COTS 在整个 MSCOCOC (5K) 测试集上快 10,800 倍。

在上表中报告了未对 MSCOCO 进行微调的比拟检索后果。能够察看到：（1）COTS 优于最新的单流办法 ViLT。(2) COTS 也击败了最新的双流办法 CLIP 和 ALIGN，只管它是用更少的数据进行预训练的。

在上表中，作者剖析了 COTS 中不同预训练指标和自适应动量滤波器 (AMF) 模块的奉献。从 CC12M 中随机抽取 200K 图像 - 文本对作为预训练数据集（称为 CC200K）。能够察看到各个损失函数都是有用的。

在表 4 中报告了 MSR-VTT 数据集上的文本到视频检索后果。能够看出：（1）即便没有对视频的工夫信息进行建模，COTS 也显着优于现有技术，这证实了 COTS 的广泛适用性和微小后劲。(2) COTS 比利用额定模态（例如，静止和音频）或在超大型视频数据上预训练的办法（例如，领有超过 1 亿个视频 - 文本对的 HowTo100M 数据集）产生更好的后果，表明通过良好预训练的视觉语言模型可能是视频文本检索的要害。

图 4 显示了 COTS 在响应单个单词的图像 / 视频帧上的可视化注意力图。

在本文中，作者钻研了如何进步双流视觉语言预训练 (VLP) 的性能，同时依然放弃其在图像文本检索方面的高效率劣势。具体来说，作者通过利用图像 - 文本检索中的三个级别的跨模态交互，提出了一种称为 COTS 的新型合作双流 VLP 模型。也就是说，作者思考通过带有标记化图像和文本的掩码视觉语言建模的 token 级交互，通过跨模态动量比照学习的 实例级交互 ，以及通过对齐两个工作散布的任 务级交互。大量试验验证了咱们的 COTS 在图像文本检索中的有效性和高效率。它还被证实具备广泛适用性，因为它无需任何批改即可实现视频文本检索的最新 SOTA。

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

请关注 FightingCV 公众号，并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。

举荐退出 FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手 wx：FightngCV666，备注： 地区 - 学校（公司）- 名称

面向小白的顶会论文外围代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的 YOLO 指标检测库：https://github.com/iscyy/yoloair

为感激各位老粉和新粉的反对，FightingCV 公众号 将在 9 月 10 日包邮送出 4 本 《深度学习与指标检测：工具、原理与算法》 来帮忙大家学习，赠书对象为当日浏览榜和分享榜前两名。想要参加赠书流动的敌人，请增加小助手微信FightngCV666（备注“城市 - 方向 -ID”），不便分割取得邮寄地址。

本文由 mdnice 多平台公布

关于人工智能:CVPR2022比VinVL快一万倍人大提出交互协同的双流视觉语言预训练模型COTS又快又好

【写在后面】

1. 论文和代码地址

2. 动机

3. 办法

3.1. Framework Overview

3.2. Training Objectives

3.2.1 Token-Level Interaction

3.2.2 Instance-Level Interaction

3.2.3 Task-Level Interaction

3.3. Adaptive Momentum Filter

4. 试验

5. 总结

【技术交换】

【赠书流动】

Just My Socks（注册教程内含优惠码）

关于人工智能:CVPR2022比VinVL快一万倍人大提出交互协同的双流视觉语言预训练模型COTS又快又好

【写在后面】

1. 论文和代码地址

2. 动机

3. 办法

3.1. Framework Overview

3.2. Training Objectives

3.2.1 Token-Level Interaction

3.2.2 Instance-Level Interaction

3.2.3 Task-Level Interaction

3.3. Adaptive Momentum Filter

4. 试验

5. 总结

【技术交换】

【赠书流动】

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）