关于人工智能:CVPR2022-中科大华为提出用于非对称图像检索的上下文相似性蒸馏

【写在后面】

非对称图像检索，典型的查问端应用小模型，数据库服务器应用大模型，是资源受限场景的无效解决方案。然而，现有办法要么无奈实现特色一致性，要么做出强假如，例如，须要来自大型模型的标记数据集或分类器等，这限度了它们的理论利用。为此，作者提出了一个灵便的上下文相似性蒸馏框架来加强小型查问模型并放弃其输入特色与大型图库模型的输入特色兼容，这对于非对称检索至关重要。在本文的办法中，作者学习了具备新的上下文相似性一致性束缚的小型模型，没有任何数据标签。在小模型学习过程中，它保留了每个训练图像及其相邻图像与大模型提取的特色之间的上下文相似性。这个简略的束缚与同时保留一阶特征向量和二阶排序列表保持一致。大量试验表明，所提出的办法在 Revisited Oxford 和 Paris 数据集上优于最先进的办法。

1. 论文和代码地址

Contextual Similarity Distillation for Asymmetric Image Retrieval

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Wu\_Contextual\_Similarity\_Distillation\_for\_Asymmetric\_Image\_Retrieval\_CVPR\_2022\_paper.pdf

代码地址：未开源

2. 动机

大多数现有的图像检索办法应用雷同的模型将查问图像和图库图像映射到特征向量，这被称为对称检索。为了达到较高的检索准确率，他们通常只是简略地抉择一个大模型进行特征提取，这存在效率低下的问题。在一些计算和内存资源无限的理论场景中，例如挪动搜寻，在用户侧应用大模型进行特征提取是难以承受的，轻量化模型更可取。一种简略的解决方案是间接应用轻量级模型来提取图库和查问的特色，然而因为轻量级模型的示意能力较差，这通常会升高检索精度。在实践中，图库图像能够在具备足够计算资源的状况下离线解决，而查问在最终用户侧进行特征提取，计算能力无限。在这样的非对称检索设置中，采纳大型模型来索引画廊图像并采纳轻量级模型进行查问是可行的，这在检索准确性和效率之间进行衡量。

轻量级模型适配是非对称检索的外围问题。具体来说，一个最佳的轻量级模型应该将查问映射到与由大型模型提取的图库嵌入雷同的嵌入空间。最近的停顿通常将特色兼容性限度引入常识蒸馏的框架中并获得了很大停顿。在这些办法中，他们在学习的大模型中重用分类器或应用大模型提取正负样本的特色进行比照学习，如上图（a）和(b)。

为了解决上述问题，作者提出了一个灵便的上下文相似性蒸馏（CSD）框架，将常识从大型图库模型转移到轻量级查问模型，同时放弃特色兼容性，如上图（c）所示。在本文的框架中，作者采纳新的上下文相似性一致性束缚来领导具备大型预训练固定模型的轻量级模型的学习。特地是，对于每个训练图像，作者首先应用大型固定模型提取其特色，并在图库中检索其街坊作为锚点。训练图像与其相邻锚点之间的余弦类似度作为上下文类似度来形容相邻关系。此外，作者应用轻量级模型提取同一训练图像的视觉特色，并在由大型模型提取的相邻锚图像的特色上计算其上下文类似度向量。最初，作者优化了大型和轻量级模型之间的上下文相似性的一致性。值得注意的是，整个框架在常识转移过程中不须要训练数据集的监督。

与以前的办法相比，本文的框架有两个长处。首先，它在训练轻量级模型时思考了上下文一致性束缚，同时优化了一阶特色放弃和二阶街坊关系放弃。其次，本文的框架在常识转移过程中不须要任何训练数据集的监督。因而，能够应用大量未标记的数据来训练轻量级模型，这有助于本文的办法在各种事实世界场景中的利用。

为了评估本文的办法，作者对 Revisited Oxford 和 Paris 数据集进行了全面的试验，这些数据集进一步混合了 100 万个烦扰项。融化钻研证实了本文框架的有效性和普遍性。本文的办法大大超过了所有最先进的办法。

3. 办法

3.1. Problem Formulation

设 (·) 示意在训练集 T 上训练的特征提取器。 (·) 用于将图库 G 中的图像 x 映射为 L2 归一化特征向量$\boldsymbol{f}_{g}=\phi(x) \in \mathcal{R}^{d}$，将用于图库索引的模型表示为$\phi_{g}(\cdot)$。在测试期间，查问模型$\phi_{q}(\cdot)$将图像 q ∈ Q 映射到 L2 归一化特征向量 $\boldsymbol{f}_{q}=\phi_{q}(q) \in \mathcal{R}^{d}$。 $\boldsymbol{f}_{g}$和 $\boldsymbol{f}_{q
}$之间的余弦类似度用于计算图像之间的类似度。以 Q 和 G 为条件的检索系统的性能通过一些指标来掂量，例如均匀均匀精度 (mAP)，将其示意为$P\left(\phi_{q}(\cdot), \phi_{g}(\cdot) \mid \mathcal{Q}, \mathcal{G}\right)$。具体来说，它是通过用$\phi_{q}(\cdot)$解决查问集Q 和用$\phi_{g}(\cdot)$ 索引图库G 来计算的。为不便起见，疏忽查问和图库集并将其示意为$P\left(\phi_{q}(\cdot), \phi_{g}(\cdot)\right)$。

假如 $\phi_{q}(\cdot)$和$\phi_{g}(\cdot)$ 是不同的模型，并且 $\phi_{q}(\cdot)$在参数尺度上显著小于$\phi_{g}(\cdot)$。对称检索采纳$\phi_{q}(\cdot)$或$\phi_{g}(\cdot)$ 解决查问集和图库集，而非对称检索应用$\phi_{q}(\cdot)$嵌入查问图像和 $\phi_{g}(\cdot)$ 解决图库。非对称检索的一个要害要求是查问模型和图库模型应该兼容，即查问模型的特色嵌入与图库模型的特色嵌入位于雷同或十分类似的流形空间中。个别冀望$P\left(\phi_{q}(\cdot), \phi_{g}(\cdot)\right)>P\left(\phi_{q}(\cdot), \phi_{q}(\cdot)\right)$且 $P\left(\phi_{q}(\cdot), \phi_{g}(\cdot)\right) \approx P\left(\phi_{g}(\cdot), \phi_{g}(\cdot)\right)$，它容许非对称检索在性能和效率之间获得均衡。

3.2. Contextual Similarity Distillation Framework

在这项工作中，作者摸索了一种新的上下文相似性束缚来学习用于非对称检索的轻量级查问模型$\phi_{q}(\cdot)$。在 $\phi_{q}(\cdot)$的学习过程中，它应用画廊模型 $\phi_{g}(\cdot)$ 提取的特色来保留每个训练图像与其街坊之间的上下文相似性。本文的框架概述如上图所示。

在轻量级查问模型的训练过程中，在训练集$\mathcal{T}_{g}$上预训练的图库模型$\phi_{q}(\cdot)$被解冻。应用独自的图库$\mathcal{G}_{t}$来开掘相邻图像，作者首先提取 $\mathcal{G}_{t}$ 中的图像特色 $\boldsymbol{F}=\left[\boldsymbol{f}_{g}^{1}, \boldsymbol{f}_{g}^{2}, \cdots, \boldsymbol{f}_{g}^{N}\right] \in \mathcal{R}^{d \times N}$：

$$\boldsymbol{f}_{g}^{i}=\phi_{g}\left(g_{i}\right) \in \mathcal{R}^{d}, for i=1,2, \cdots, N,$$

其中 $g_i$ 是图库中的第 i 个图像。而后，对于每个训练样本$x \in \mathcal{T}_{q}$，将其嵌入到画廊模型 $\phi_{g}(\cdot)$和查问模型 $\phi_{q}(\cdot)$中以取得 g 和 q：

$$\boldsymbol{g}=\phi_{g}(x) \in \mathcal{R}^{d}, \boldsymbol{q}=\phi_{q}(x) \in \mathcal{R}^{d}$$

g被视为查问，通过检索算法从图库中取得top-K图像的排名列表$R=\left[r_{1}, r_{2}, \cdots, r_{K}\right]$作为锚点，其中$r_i$示意第i个的ID图片。作者假如查问图像不蕴含在图库中，并将其直接插入到排名列表的后面。因而，排序列表中锚图像的特征描述为$\boldsymbol{F}_{K}=\left[\boldsymbol{g}, \boldsymbol{f}_{g}^{r_{1}}, \cdots, \boldsymbol{f}_{g}^{r_{K}}\right] \in \mathcal{R}^{d \times(K+1)}$。

因为图库模型通过良好训练，检索后果充分反映了图库嵌入空间中 x 的邻域构造。作者进一步用上下文相似性来示意这一构造。具体来说，作者计算查问 g 和排名列表的特色$\boldsymbol{F}_{K}$之间的余弦类似度作为上下文类似度：

$$\boldsymbol{C}_{g}=\left[\boldsymbol{g}^{T} \boldsymbol{g}, \boldsymbol{g}^{T} \boldsymbol{f}_{g}^{r_{1}}, \cdots, \boldsymbol{g}^{T} \boldsymbol{f}_{g}^{r_{K}}\right] \in \mathcal{R}^{K+1}$$

对于查问模型$\phi_{q}(\cdot)$提取的特色q，能够失去对应的上下文类似度：

$$\boldsymbol{C}_{q}=\left[\boldsymbol{q}^{T} \boldsymbol{g}, \boldsymbol{q}^{T} \boldsymbol{f}_{g}^{r_{1}}, \cdots, \boldsymbol{q}^{T} \boldsymbol{f}_{g}^{r_{K}}\right] \in \mathcal{R}^{K+1}$$

之后，作者对上下文相似性 $\boldsymbol{C}_{g}$ 和$\boldsymbol{C}_{q}$施加一致性束缚$\mathcal{L}_{c}$以优化 $\phi_{q}(\cdot)$，使得嵌入 q 与图库嵌入空间中的相邻图像具备雷同的相邻上下文。值得注意的是，通过计算图库嵌入空间中 g 和 q 的上下文相似性，能够将图库嵌入空间的街坊构造转移到查问嵌入空间并放弃它们互相兼容。

因为作者应用十分深的模型（例如 ResNet101）作为图库模型$\phi_{g}(\cdot)$，如果在线应用它来计算图库图像 $\mathcal{G}_{t}$ 和训练图像 $\mathcal{T}_{g}$的特色嵌入，将须要十分大的计算和存储资源。侥幸的是，本文的框架不须要优化画廊模型。因而，作者在训练之前提取图库和训练数据集中所有图像的特色。在训练期间，特色被缓存在内存中。对于每个训练样本，找到它的街坊并加载相应的特色。

3.3. Contextual Similarity Consistency Constraints

对于非对称检索，查问模型 $\phi_{q}(\cdot)$须要特色兼容和放弃街坊构造的能力。为此，通过最小化训练集 $\mathcal{T}_{g}$ 上的上下文相似性一致性束缚来学习最优 $\phi_{q}^{*}(\cdot)$。在这项工作中，作者思考了两种类型的一致性损失，即回归损失和 KL 散度损失，将在上面探讨。

L1 and L2 distances

一个简略的抉择是激励两个模型对雷同的输出示例具备亲密的上下文相似性。为了掂量向量之间的靠近水平，L1 和 L2 间隔度量是最风行的两个，作者将回归损失定义如下

$$\mathcal{L}_{D}=\left(\sum_{i=1}^{K+1}\left|\boldsymbol{C}_{q}^{i}-\boldsymbol{C}_{g}^{i}\right|^{\alpha}\right)^{\frac{1}{\alpha}}, \alpha=1,2$$

实质上，等价于以下等式：

$$\mathcal{L}_{D}^{\alpha}=\underbrace{\left|\boldsymbol{q}^{T} \boldsymbol{g}-1\right|^{\alpha}}_{\text {first-order }}+\underbrace{\sum_{i=1}^{K}\left|\boldsymbol{q}^{T} \boldsymbol{f}_{g}^{r_{i}}-\boldsymbol{g}^{T} \boldsymbol{f}_{g}^{r_{i}}\right|^{\alpha}}_{\text {second-order }}$$

优化上述束缚与优化一阶特色兼容性和二阶排名列表保留损失是统一的。

KL Divergence

优化上述上下文相似性一致性的另一种代替损失是基于 KL 散度。为此，首先将上下文类似度转换为相邻锚点上的概率分布模式：

$$p_{j}^{i}=\frac{\exp \left(\boldsymbol{C}_{j}^{i} / \tau_{j}\right)}{\sum_{l=1}^{K+1} \exp \left(\boldsymbol{C}_{j}^{l} / \tau_{j}\right)}, for i=1,2, \cdots, K+1$$

其中$\tau_{j}$是温度系数，$j \in\{q, g\}$。因为排名列表可能蕴含远离嵌入特色空间中训练图像的图像，因而温度系数 $_g$ 设置为小于 1 以放弃$\phi_{q}(\cdot)$次要关注训练图像的近邻构造，而不是远距离点。而后，一致性束缚能够定义为同一街坊集上两个概率之间的 KL 散度：

$$\mathcal{L}_{K L}=D_{K L}\left(p_{g} \| p_{q}\right)=\sum_{l=1}^{K+1} p_{g}^{l} \log \frac{p_{g}^{l}}{p_{q}^{l}}$$

作者还将 KL 散度损失分为一阶和二阶项。令 $D_q =\sum_{l=1}^{K+1} \exp \left(C_{q}^{l} / \tau_{q}\right)$和上式能够改写为：

$$\begin{aligned} \mathcal{L}_{K L} &=\underbrace{\sum_{l=1}^{K+1} p_{g}^{l} \log p_{g}^{l}}_{\text {constant } C}-\sum_{l=1}^{K+1} p_{g}^{l} \log p_{q}^{l} \\ &=C-\underbrace{\frac{p_{g}^{1}}{\tau_{q}} \boldsymbol{q}^{T} \boldsymbol{g}}_{\text {first-order }}+\underbrace{p_{g}^{1} \log D_{q}-\sum_{l=2}^{K+1} p_{g}^{l} \log p_{q}^{l}}_{\text {second-order }} \end{aligned}$$

因而，也达到了同时优化一阶和二阶损失的成果。

4.试验

上图显示了本文办法在不同长度的排名列表 R 下的 mAP。随着长度的减少，性能在所有设置下都会减少，但当列表长度 K ≥ 1024 时会饱和。

如上图所示，Random 和 Fixed 抉择anchor的变体都会导致性能重大降落，这表明保留近邻的上下文相似性有利于非对称检索。

如上表中所示。 L2损失和$L_{KL}$损失都导致良好的性能，而L1损失体现最差。这是因为 L1 损失应用绝对值作为间隔，这导致优化艰难。作者将 KL 散度作为默认一致性束缚。

在上表中，作者进一步验证优化本文的上下文相似性一致性束缚与优化一阶特色保留和二阶排名列表保留损失是统一的。

在上表中，作者进一步展现了本文框架的可扩展性。

上表展现了数据集上的一些可视化检索后果。

上表表明，当训练数据和图库的散布产生巨大变化时，性能会降落。乏味的是，当采纳 ImageNet 作为训练集和图库时，它依然运行良好。

上图显示了一些 ROxf 和 RPar 图像的嵌入，每个图像都由一个画廊和一个查问模型解决。对于非对称检索，放弃特色兼容性至关重要。在训练期间，查问模型被束缚以放弃每个训练图像与其在图库模型的嵌入空间中的街坊之间的上下文相似性。这使查问和图库模型的输入空间放弃兼容。

作者在残缺基准上对本文的办法与最先进的办法进行了宽泛的比拟。如上表中所示，本文的框架在不对称设置下实现了最佳性能。

5. 总结

在本文中，作者提出了一种灵便的上下文相似性蒸馏框架，用于不对称检索。在查问模型训练过程中，采纳新的上下文相似性一致性束缚来放弃每个训练样本与其相邻锚点之间的上下文相似性。优化此束缚与优化一阶特色保留和二阶排名列表保留损失是统一的。所提出的框架甚至能够应用来自不同畛域的未标记数据集进行训练，这表明了本文办法的普遍性。大量试验证实了本文的办法在不对称检索设置下优于现有的最先进办法。

【技术交换】

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

举荐退出FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

面向小白的顶会论文外围代码库：[https://github.com/xmu-xiaoma...](https://github.com/xmu-xiaoma... "https://github.com/xmu-xiaoma66

【赠书流动】

为感激各位老粉和新粉的反对，FightingCV公众号将在9月10日包邮送出4本《深度学习与指标检测：工具、原理与算法》来帮忙大家学习，赠书对象为当日浏览榜和分享榜前两名。想要参加赠书流动的敌人，请增加小助手微信FightngCV666（备注“城市-方向-ID”），不便分割取得邮寄地址。

本文由mdnice多平台公布