共计 6968 个字符,预计需要花费 18 分钟才能阅读完成。
【写在后面】
基于文本的人物搜寻是图像检索畛域的一个子工作,旨在依据给定的文本形容检索指标人物图像。两种模态之间的显著特色差距使得这项工作十分具备挑战性。许多现有办法试图利用部分对齐在细粒度级别解决这个问题。然而,大多数相干办法都引入了额定的模型或简单的训练和评估策略,很难在理论场景中应用。为了便于理论利用,作者提出了一个简略但无效的端到端学习框架,用于基于文本的工作搜寻,名为 TIPCB(即基于文本图像局部的卷积基线)。首先,作者提出了一种新的双门路部分对齐网络结构来提取视觉和文本部分示意,其中图像程度宰割,文本自适应对齐。而后,作者提出了一种多阶段跨模态匹配策略,该策略从低层、部分层和全局层三个特色层打消了模态差别。在宽泛应用的基准数据集(CUHK-PEDES)上进行了大量试验,验证了本文办法的性能。
1. 论文和代码地址
TIPCB: A Simple but Effective Part-based Convolutional Baseline for Text-based Person Search
2. Motivation
人物搜寻是图像检索畛域的一项关键技术,旨在从具备给定检索条件的大型数据库中查找指标人物图像,包含人物图像、相干属性或自然语言形容。依据查问的模式,该技术能够大抵分为基于图像的搜寻、基于属性的搜寻和基于文本的搜寻。近年来,人员搜寻因其在公共安全和视频监控中的广泛应用而受到越来越多的关注,例如搜寻嫌疑人和失踪人员。
在本文中,作者钻研了基于文本的人员搜寻工作,如上图所示。具体来说,须要依据与查问文本形容的相似性对大型图库中的所有人物图像进行排序,并抉择排名靠前的人物图像作为匹配项。因为文本形容作为检索查问更天然、更易拜访,因而在没有指标人物图像的状况下,基于文本的人物搜寻具备很大的潜在价值,例如,依据目击者的形容搜寻嫌疑人。
基于文本的人员搜寻依然是一项具备挑战性的工作,因为它既有人员从新辨认的艰难,也有跨模态检索的艰难。一方面,因为遮挡、背景杂波和位姿 / 视点变动的烦扰,很难提取鲁棒的视觉示意。另一方面,不同人物的一些图像或形容具备十分类似的高级语义,而图像和文本的域具备显著差别,导致模态间特色方差远大于模态内特色方差。
因而,人们提出了一系列相干办法来缩小图像域和文本域之间的差距。作者将其大抵分为 全局匹配办法 和部分匹配办法。全局匹配办法次要关注全局视觉和文本示意学习,并取得对立的特色空间。然而,图像蕴含许多独特的部分细节,难以通过全局示意提取进行摸索。此外,图像中存在一些不相干的区域,这会给全局信息带来噪声。为了进一步开掘有甄别和全面的信息,提出了一些部分匹配办法,通过部分对齐来匹配人物图像和文本形容。
然而,现有的大多数部分匹配办法因为其高度的复杂性而不够实用,无奈满足事实场景的要求。其中一些办法引入了额定的模型或利用了多任务学习策略,如人体姿态预计、语义宰割或属性辨认,这会带来大量计算量,使网络无奈执行端到端学习。一些办法采纳了多粒度相似性度量策略。在应用阶段,这些办法须要学习每个图像或文本的多个部分示意,并反复计算部分类似度。对于理论利用而言,附加模型和简单的相似性度量都十分耗时。因而,有必要为基于文本的人员搜寻问题设计一个简略但无效的框架。
在本文中,作者提出了一种新的端到端学习框架 TIPCB(即基于文本图像局部的卷积基线),以便于理论利用。首先,提出了一种新的双门路部分对齐网络结构来提取视觉和文本部分示意。视觉部分示意是通过个别 PCB 策略提取的,在该策略中,人物图像被程度宰割为多个条纹。在文本示意学习门路中,单词嵌入通过具备预训练和固定参数的 BERT 模型学习,并通过多分支残差网络进一步解决。在每个分支中,学习文本示意以自适应地匹配相应的视觉部分示意,从而提取对齐的文本部分示意。此外,一种多阶段跨模态匹配策略被提出,该策略打消了低层、部分和全局特色的模态间隙,而后逐渐放大图像域和文本域之间的特色间隙。
本文的次要奉献总结如下:
1)提出了一种新的双门路部分对齐网络,用于联结学习视觉和文本示意,该网络能够以简略但无效的形式对齐部分特色。
2)设计了一种多阶段跨模态匹配策略,以逐渐放大两种模态之间的差距。整个框架能够端到端的形式进行训练。
3)后果地验证了本文提出的 TIPCB 框架达到了最先进的性能。
3. 办法
在本节中,作者将论述本文提出的基于文本图像局部的卷积基线(TIPCB),用于基于文本的人员搜寻问题。作者首先阐明了双门路部分对齐网络结构,包含视觉 CNN 分支和文本 CNN 分支,而后是多级穿插模态匹配策略被引入来打消模态建模的 gap。
3.1. 视觉表征学习
如上图所示,本文提出的 TIPCB 蕴含两个 CNN 分支,其目标是别离从输出的人物图像和形容中学习辨别性和兼容的视觉和文本示意。在训练阶段,训练数据为 $D=\left\{I_{i}, T_{i}\right\}_{i=1}^{N}$,其中 N 示意每 batch 中图像 - 文本对的数量,每个对由图像 I 和相应的形容 T 组成。在视觉 CNN 分支中,采纳 ResNet-50 作为骨干来提取视觉特色,次要由四个残差块组成。不同的残差块能够从不同级别捕捉语义信息。对于每个图像 I,作者将第 3 和第 4 个残差块生成的特色定义为其低层特色图 $f_{l}^{I} \in \mathbb{R}^{H \times W \times C_{1}}$ 和高级特色映射图 $f_{h}^{I} \in \mathbb{R}^{H \times W \times C_{2}}$,其中 H、W 和 $C_{1} / C_{2}$ 示意上述特色图中的高度、宽度和通道尺寸。而后失去了它的视觉低层示意 $v_{l}^{I} \in \mathbb{R}^{C_{1}}$:
$$
v_{l}^{I}=\operatorname{GMP}\left(f_{l}^{I}\right)
$$
其中,GMP 示意全局最大池化层,作为开掘显著信息的过滤器。
在这里,作者采纳 PCB 策略来取得部分区域。具体来说,高级特色映射 $f_{h}^{I}$ 被宰割成 K 个程度条纹,示意为 $\left\{f_{p 1}^{I}, f_{p 2}^{I}, \ldots, f_{p K}^{I}\right\}$,其中 $f_{p i}^{I} \in \mathbb{R} \frac{H}{K} \times W \times C_{2}$。对于每个条带,作者依然采纳全局最大池化层来提取视觉部分示意 $v_{p i}^{I} \in \mathbb{R}^{C_{2}}$。为了交融所有部分示意,作者抉择通道维度中每个元素的最大值,失去视觉全局示意 $v_{g}^{I} \in \mathbb{R}^{C_{2}}$:
$$
v_{g}^{I}=\operatorname{Max}\left(v_{p 1}^{I}, v_{p 2}^{I}, \ldots, v_{p K}^{I}\right)
$$
因而,失去了视觉特色集 $V^{I}=\left\{v_{l}^{I}, v_{p 1}^{I}, \ldots, v_{p K}^{I}, v_{g}^{I}\right\}$,蕴含低层、部分和全局示意。在测试阶段,仅采纳全局级示意来度量类似度。
3.2. 文本表征学习
在文本 CNN 分支中,利用高性能语言示意模型 BERT 提取有区别的单词嵌入,该模型能够通过双向训练 Transformer 来学习单词之间的上下文关系。具体来说,作者将每个文本形容合成为一个单词列表,并在每个句子的结尾和结尾插入 [CLS] 和[SEP]。而后,该列表由预训练的 tokenizer 嵌入到 token 中。为了确保文本长度的一致性,当文本长于 L 时,作者抉择前 L 个 token,当文本小于 L 时,在文本开端利用零填充。而后,将每个标记化的文本形容输出到 BERT 模型中,该模型通过预训练和参数固定,以提取单词映射 $t \in \mathbb{R}^{L \times D}$,其中 D 示意每个单词嵌入的维数。在这里,作者“解冻”了 BERT 模型的权重,起因如下:1)预训练的 BERT 自身具备很强的语义示意能力,因而仅将其用作单词嵌入层,2)CNN 构造可能进一步解决单词嵌入,3)只有训练 CNN 构造能力显著缩小训练参数的数量并减速模型的收敛。
为了满足卷积层的输出要求,作者将单词向量的维度从 $t \in \mathbb{R}^{L \times D}$ 拓展到 $t^{*} \in \mathbb{R}^{1 \times L \times D}$,其中 1、L 和 D 别离被视为卷积输出的高度、宽度和通道维数。受残差网络和深度文本 CNN 的启发,作者设计了多分支文本 CNN,如上图所示。在文本 CNN 中,为了将嵌入的单词映射到同一通道维度作为视觉底层特色映射 $f_{l}^{I} \in \mathbb{R}^{H \times W \times C_{1}}$,第一卷积层的滤波器大小设置为 $1 \times 1 \times D \times C_{1}$,能够将其视为查找表。而后,能够取得文本低层特色映射 $f_{l}^{T} \in \mathbb{R}^{1 \times L \times C_{1}}$。
多分支文本 CNN 蕴含 K 个残差分支,对应于人物图像的 K 条条纹。对于每个分支,它蕴含 P 个文本残差瓶颈,旨在自适应地学习可能匹配视觉部分示意的文本示意。文本残差瓶颈的构造与 ResNet 中的模块类似,由几个卷积层和 batch 归一化层组成。skip 连贯用于将信息从低层传输到高层,能够无效地克制网络进化问题并放慢模型训练。具体来说,为了放弃文本信息未压缩,瓶颈中所有卷积层的步长设置为 1×1。对于每个分支的第一个瓶颈,作者将文本特色图的通道维度批改为 $C_{2}$,这与视觉高级特色图 $f_{h}^{I} \in \mathbb{R}^{H \times W \times C_{2}}$ 统一,而后在以下瓶颈中放弃通道维数不变。在多分支文本 CNN 之后,取得了文本部分特色图。与视觉 CNN 分支相似,作者采纳全局最大池化层来提取文本部分示意,并抉择通道维度中每个元素的最大值来交融这些部分示意。而后,失去文本特色集 $V^{T}=\left\{v_{l}^{T}, v_{p 1}^{T}, \ldots, v_{p K}^{T}, v_{g}^{T}\right\}$,蕴含低层、部分和全局示意。
与深度文本 CNN 不同,作者只重叠了几个瓶颈,而不是应用十分深的残差网络来提取文本示意,起因如下:1)深度文本 CNN 不同阶段之间的下采样带来了显著的信息损失,2)深度网络与浅层网络相比没有带来显著的改善,这与图像畛域的教训相同。
3.3. 多阶段跨模态匹配
为了打消图像模态与文本模态之间的特色差距,作者在低级,部分和全局级别示意上采纳了跨模态投影匹配 (CMPM) 损失,它能够通过将穿插模态投影合并到 KL 发散中来关联不同模态的示意。对于每个视觉示意 $v_{i}^{I}$,假如图像 - 文本示意对集为 $\left\{\left(v_{i}^{I}, v_{j}^{T}\right), y_{i, j}\right\}_{j=1}^{N}$,其中 $y_{i, j}=1$ 示意 $v_{i}^{I}$ 和 $v_{j}^{T}$ 来自同一个人,否则示意它们不是匹配对。
$v_{i}^{I}$ 和 $v_{j}^{T}$ 是匹配对的概率能够通过以下公式计算:
$$
p_{i, j}=\frac{\exp \left(\left(v_{i}^{I}\right)^{\top} \bar{v}_{j}^{T}\right)}{\sum_{k=1}^{N} \exp \left(\left(v_{i}^{I}\right)^{\top} \bar{v}_{k}^{T}\right)}
$$
其中,$\bar{v}_{j}^{T}$ 是归一化的文本示意,示意为 $\bar{v}_{j}^{T}=\frac{v_{j}^{T}}{\left\|v_{j}^{T}\right\|}$。在 CMPM 中,$v_{i}^{I}$ 在 $v_{j}^{T}$ 上的标量投影被视为它们的相似性,匹配概率 $p_{i, j}$ 是 $v_{i}^{I}$ 和 $v_{j}^{T}$ 之间的相似性与 $v_{i}^{I}$ 和 $\left\{v_{j}^{T}\right\}_{j=1}^{N}$ 相除的后果。而后,可通过以下公式计算 CMPM 损失:
$$
L_{I 2 T}=\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{N} p_{i, j} \log \left(\frac{p_{i, j}}{q_{i, j}+\varepsilon}\right)
$$
其中 $\varepsilon$ 是一个较小的数字,以防止数值问题,$q_{i, j}$ 是 $v_{i}^{I}$ 和 $v_{j}^{T}$ 之间的归一化实在匹配概率,因为一个 batch 中可能有多个匹配的文本形容,示意为 $q_{i, j}=\frac{y_{i, j}}{\sum_{k=1}^{N} y_{i, k}}$。上述过程在单个方向上缩短了每个视觉示意及其匹配的文本示意之间的间隔,作者反向执行相似的过程,以使每个文本示意及其匹配的视觉示意更靠近。因而,双向 CMPM 损失通过以下公式计算:
$$
L_{C M P M}=L_{I 2 T}+l_{T 2 I}
$$
本文框架中的指标包含三个档次的跨模态示意匹配。低层示意中的 CMPM 损失是为了在晚期阶段缩小模态间隙 。 部分示意中的 CMPM 损失能够实现图像和文本之间的部分对齐 。 全局级示意中的 CMPM 损失确保评估的最终示意具备更强的模态兼容性。通过 CMPM 损失的多个阶段,能够逐步提高图像文本示意的匹配度,这将在融化钻研中失去进一步验证。最初,依据视觉和文本示意集 $V^{I}$ 和 $V^{T}$,通过以下公式计算总体目标函数:
$$
L=\lambda_{1} L_{C M P M}^{l}+\lambda_{2} \sum_{k=1}^{K} L_{C M P M}^{p k}+\lambda_{3} L_{C M P M}^{g}
$$
其中 $\lambda_{1}, \lambda_{2}, \lambda_{3}$ 是超参数,用于管制不同 CMPM 损失的重要性,而 $L_{C M P M}^{l},\left\{L_{C M P M}^{p k}\right\}_{k=1}^{K}, L_{C M P M}^{g}$ 别离示意 CMPM 损失的低级、部分级和全局级示意。
4. 试验
作者在 CUHK-PEDES 数据集上进行了试验,上图展现了 CUHK-PEDES 数据集上的一些样本可视化。
上表展现了本文办法和 SOTA 办法在 CUHK-PEDES 数据集上的性能比照。
为了验证部分特色的有效性,作者将基于部分特色的办法和全局特色的办法进行比照,从上图(a)能够看出部分特色的办法可能显著优于全局特色。从上图(b)能够看出,当部分区域的粒度太小时,部分区域集中的大量噪声将给网络提取该区域的公共特色带来艰难。
上图(a)展现了不同瓶颈数量的模型性能,结果表明,随着瓶颈数量的减少,网络呈现出先减少后缩小的总体趋势,当每个分支有 3 个瓶颈时,网络达到最佳性能。在上图(b)中,作者将残差分支与不同的下采样工夫进行比拟。
在训练阶段,为了逐渐刺激模态间隙,咱们利用了多阶段跨模态匹配策略,该策略将 CMPM 损失利用于三个阶段的示意,包含低水平和高水平示意。请留神,部分级别和全局级别的示意都属于高级示意。作者进行了以下融化实 验,以验证每个阶段的 CMPM 损失,后果如下表所示。
作者进行了一系列融化试验,比拟不同交融策略的性能,包含均匀交融、最大交融和同时增加它们,后果如上表所示。
在上图中,作者利用 t -SNE 来可视化特色,并在四个步骤中显示特色散布的变动过程。在训练之前,文本模态和图像模态之间存在显著差距,模态外部的散布错乱。通过几个训练阶段后,能够察看到雷同身份的样本开始聚类,但这两种模式仍有很大差距。而后,两种模态的散布开始逐步收敛,直到其核心靠近。最初,两种模态的特色散布在肯定水平上吻合良好,来自同一身份的样本能够具备良好的聚类性能。
如上图所示,本文通过提出的 TIPCB 可视化和剖析了几个基于文本的工作搜寻示例。
5. 总结
在本文中,作者提出了一个简略但无效的端到端学习框架,用于基于文本的人员搜寻,称为 TIPCB(即基于文本图像局部的卷积基线)。与现有的部分匹配办法相比,TIPCB 采纳端到端的可训练构造,无需额定的模型和简单的评估策略。作者设计了一种新的双门路部分对齐网络来学习视觉和文本部分示意,其中图像程度宰割,文本自适应对齐。此外,作者引入了一种多阶段跨模态匹配策略,从三个档次匹配视觉和文本示意,并逐渐打消模态差距。杰出的试验后果验证了作者提出的 TIPCB 办法的优越性。
已建设深度学习公众号——FightingCV,欢送大家关注!!!
ICCV、CVPR、NeurIPS、ICML 论文解析汇总:https://github.com/xmu-xiaoma…
面向小白的 Attention、重参数、MLP、卷积外围代码学习:https://github.com/xmu-xiaoma…
退出交换群,请增加小助手 wx:FightngCV666
本文由 mdnice 多平台公布