共计 8379 个字符,预计需要花费 21 分钟才能阅读完成。
【写在后面】
基于文本的人物搜寻旨在应用人物的描述性句子在图像库中检索指标人物。这是一个十分具备挑战性的问题,因为模态差别使得无效提取甄别特色更加艰难。此外,行人图像和形容的类间方差很小。因而,须要综合信息来在所有尺度上对齐视觉和文本线索。大多数现有办法仅思考单个尺度(例如仅全局尺度或仅局部尺度)内图像和文本之间的部分对齐,或仅在每个尺度上独自构建对齐。为了解决这个问题,作者提出了一种可能跨所有尺度自适应对齐图像和文本特色的办法,称为 NAFS(即全尺度示意的非部分对齐)。首先,提出了一种新的阶梯网络结构来提取局部性更好的全尺度图像特色。其次,提出了一种部分注意力训练的 BERT,以取得不同尺度下的形容示意。而后,不是在每个尺度上独自对齐特色,而是利用一种新的上下文非部分留神机制来同时发现所有尺度上的潜在对齐。试验结果表明,在基于文本的集体搜寻数据集上,本文的办法在 top- 1 和 top- 5 方面别离优于最先进的办法 5.53% 和 5.35%。
1. 论文和代码地址
Contextual Non-Local Alignment over Full-Scale Representation for Text-Based Person Search
论文地址:https://arxiv.org/abs/2101.03036
代码地址:https://github.com/TencentYoutuResearch/PersonReID-NAFS
2. Motivation
基于文本的人物搜寻旨在应用人物的描述性句子在图像库中检索指标人物。与经典的人物再辨认(Reid)相比,它不须要指标人物的图像作为查问。此外,基于文本的人员搜寻更易于用户应用,因为它能够反对开放式自然语言查问。因而,它具备更宽泛的利用后劲。
与一幅图像可能蕴含多个对象的个别图像 - 文本匹配工作相比,基于文本的人员搜寻是一项更具挑战性的工作,因为不同行人图像之间的高层语义十分类似,导致行人图像和文本形容的类间差别很小。因而,为了摸索更有特色和更全面的信息,基于文本的人搜寻须要一种算法来从所有尺度中提取图像和文本特色。例如,上图中的图像和文本形容都能够合成为不同比例的示意。这个句子能够用短句来示意,例如在 3 级的“彩色短裤”,或者在 2 级的更长的子句。相似地,图像也能够按比例 3 和比例 2 划分为不同大小的子区域。因为这些图像示意和文本示意之间的正确对齐是图像 - 文本匹配工作的根底,因而必须在所有尺度上示意图像和文本形容。在本文中,作者称之为全尺度示意。然而,不同尺度下的简单相关性使得很难建设正当的对齐计划。如上图所示,在大多数状况下,对齐产生在类似的比例下,例如子句“一件彩色衬衫,下面有一个灰色十字架”和比例 2 中的图像区域。但偶然也会在不同的尺度上产生对齐。例如,如上图中的红色箭头所示,比例 3 中的单个单词“woman”与比例 1 中的整个图像对齐。这些景象阐明了在类似尺度和不同尺度下联结对齐图像和形容的重要性。因而,一种正当的基于文本的人员搜寻办法通常蕴含两个要害局部。一个是以从粗到细的形式学习所有尺度下的图像和文本示意,另一个是摸索适当的对齐形式,以主动和自适应地匹配这些不同尺度的示意。
现有的大多数作品无奈齐全满足上述两个角度。一方面,对于多尺度示意,大多数办法仅在肯定尺度上学习图像和文本形容的示意。几种粗粒度办法侧重于在全局尺度上学习示意,即上图比例 1 所示的整个图像和句子。细粒度办法以最小比例对图像和文本形容进行建模,例如上图比例 3 中所示的图像区域和短短语。只管一些细粒度办法[思考将最小尺度与全局尺度相结合,但它们依然不足中尺度信息,导致一些形容段(图像区域)无奈与适当的图像区域(形容段)正确对齐。
另一方面,对于跨尺度对齐,现有办法尝试应用事后定义的规定来对齐不同尺度的图像和文本形容。一些办法只思考图像和文本形容的全局匹配。其余一些办法增加了短短语和图像区域之间的对齐,如图 1 比例 3 所示,但疏忽了不同比例之间的对齐。最近,一些办法进一步减少了整个图像和短句之间的额定对齐,以及小图像条纹和整个句子之间的对齐。这些办法表明,利用多尺度特色能够显著进步性能。然而,它们都事后定义了不同尺度(例如全局 - 全局、部分 - 部分)的图像示意和文本示意之间的几种对齐规定,并别离在这些固定尺度对内建设对齐。因而,它将对齐限度在肯定范畴内,导致齐全疏忽比例对之外的图像示意和文本示意之间的对齐。
为了解决上述问题,在本文中,作者提出了一种新的基于文本的人员搜寻办法,该办法为图像和文本示意构建全尺度示意,并在所有尺度上自适应对齐它们,称为 NAFS(全尺度示意上的非部分对齐)。首先,作者提出了一种新的阶梯网络将更好的局部性联合到学习的全尺寸图像特色中的条纹宰割操作。而后,通过增加部分束缚留神的改良 BERT 语言模型来提取全尺度文本特色。接下来,作者开发了一种更灵便的对齐机制,称为语境非部分留神,它可能联结将所有尺度的图像示意和文本示意作为输出,而后自适应地在所有尺度上建设对齐,而不是在几个事后定义的尺度下对齐特色(例如,部分 - 部分、全局 - 全局)。最初,提出了一种新的基于最近视觉邻域的从新排序算法,以进一步提高排序品质。
本文的次要奉献能够总结如下:(1)专门开发了一种新的阶梯 CNN 网络和部分束缚 BERT 模型来提取全尺度图像和文本示意。(2)提出了一种上下文非部分留神机制,用于在所有尺度上自适应对齐学习的示意。(3)该框架在具备挑战性的数据集 CUHK-PEDES 上实现了最先进的后果。宽泛的融化钻研分明地证实了本文办法中每个成分的有效性。
3. 办法
在本节中,首先,作者介绍了提取视觉和文本示意的过程。而后作者形容了本文的语境非部分留神机制。最初,作者介绍了所提出的通过视觉街坊从新排序的办法,以进一步提高性能。
3.1. 提取视觉示意
楼梯骨干构造
首先,作者具体论述了所提出的楼梯网络的实现细节。如上图所示,它蕴含三个分支,每个分支负责从粗到细提取不同尺度的视觉特色,即全局分支(蓝色)、区域分支(黄色)和 patch 分支(绿色)。个别的 ResNet 网络用作主干网。1)全局分支用于提取全局和最毛糙的特色。2)区域分支从图像中的大子区域中提取外部特色。它将全局分支第二阶段的特色映射作为输出,而后输出到两个间断的 res 块中,在区域尺度上提取特色。而后将区域分支的输入特色映射程度宰割为 $n_{1}$ 个条带,每个条带进一步编码为特定区域的部分特色。3)patch 分支从图像中的小 patch 中提取最新特色。它将全局分支第三阶段的特色图作为输出,而后将其输出到一个 res 块中,以在小 patch 尺度上提取特色。而后,作者将输入的特色图程度宰割成 $n_{2}$ 条条纹,以提取部分 patch 的 $n_{2}$ 个特征向量。
拆分和 shuffle 操作
基于条带的 ReID 模型面临的一个挑战是,因为 CNN 模型的感知域很大,深层特色图的条带可能也蕴含全局信息。因而,为了保障多尺度图像特色具备更好的局部性,作者引入了一种新的宰割 \&shuffle 操作。它将两头特色映射作为输出,而后将特色映射均匀划分为几个程度条带,示意为列表 $F=\left\{f_{1}, f_{2}, \cdots, f_{n}\right\}$,其中 $f_{i}$ 是从特色映射顶部开始的第 i 个条带。而后,对这组分区条纹沿纵轴进行随机合成和从新连贯造成残缺的特色图作为输入。第 2 阶段和第 3 阶段的特色图将在别离输出范畴和 patch 分支之前首先宰割和细化。通过随机宰割条纹,它能够突破间断条纹之间的互相关系,使模型可能专一于每个条纹内的信息。因为本文的上下文非部分注意力不依赖于特色图片段的程序,因而没有必要将宰割的条纹从新组织为原始程序。
视觉表征提取模块将行人图像作为输出,而后能够取得不同尺度的图像特色列表,并将其示意为 $I=\left\{i_{p 1}, i_{p 2}, \cdots, i_{p n}\right\}$,其中 $i_{p i} \in \mathbb{R}^{D}$。
3.2. 提取文本示意
给定文本形容 $E$,作者在 BERT 中增加部分束缚以提取 $E$ 的不同尺度示意。在本文的办法中,文本形容将别离在三个尺度中示意。1)在句子层面,作者在句子 $E$ 的结尾增加了一个非凡的分类 token([CLS])。与该 token 对应的最终暗藏状态能够用作整个句子 $E$ 在全局视图中的句子层面示意。2)在中间层,作者用逗号分隔句子 $E$,从而失去一系列较短的子句子。对于列表中的每个子句,[CLS] token 也附加到子句的结尾,其最终暗藏状态也用作每个子句的示意。3)在词级,每个词的最终暗藏状态间接用作词级示意。
对于常见的基于 BERT 的模型,所有 token 的暗藏变量具备雷同的全局感知场。每个 token 都能够解决整个输出句子中的任何 token。为了为句子中的子区域示意(子句子的 [CLS] 标记)提供局部性,作者提出了一个局部性束缚留神模块来关注肯定范畴内的 token。与原始 BERT 相似,假如查问对应于子实体(示意为 $q_{C L S}$)的[CLS] token,部分束缚注意力计算如下:
$$
Attention \left(q_{C L S}\right)=\sum_{i} \frac{e^{q_{C L S} k_{i}}}{\sum_{i} e^{q_{C L S} k_{i} \mathbf{1}(i \in U)}} v_{i} \mathbf{1}(i \in U)
$$
其中 $k_{i}$ 和 $v_{i}$ 别离示意对应于句子中所有 token 的键和值。U 是该子句子范畴内的 token 集,$\mathbf{1}(\cdot)$ 是一个批示函数,当第 i 个 token 在 U 中时返回 1。
文本示意提取模块将行人形容作为输出,而后能够取得不同尺度的文本嵌入列表,并示意为 $T=\left\{t_{p 1}, t_{p 2}, \cdots, t_{p n}\right\}$,其中 $t_{p i} \in \mathbb{R}^{D}$。
3.3. 语境非部分留神机制
如上图所示,语境非部分留神须要两个输出:一组视觉特色 $I=\left\{i_{p 1}, i_{p 2}, \cdots, i_{p m}\right\}$ 和一组文本特色 $T=\{t_{p 1},\left.t_{p 2}, \cdots, t_{p n}\right\}$。注意力模块的输入是掂量图像 - 文本对相关性的相似性分数。简言之,语境非部分留神使跨模态特色可能依据其语义以从粗到细的形式互相对齐,而不仅仅是应用事后定义和固定的规定(例如,部分 - 部分、全局 - 全局)。
受自注意力的启发,作者能够将本文提出的注意力机制解释为将查问和一组键值对映射到输入。对于视觉特色,应用两个学习的线性投影将 I 映射到视觉查问 $I_{Q}=\left\{I_{q 1}, I_{q 2}, \cdots, I_{q m}\right\}$ 和视觉值 $I_{V}=\left\{i_{v 1}, i_{v 2}, \cdots, i_{v m}\right\}$。相似地,摸索了两个线性投影,以将 T 映射到文本键 $T_{K}=\left\{t_{k 1}, t_{k 2}, \cdots, t_{k n}\right\}$ 和文本值 $T_{V}=\left\{t_{v 1}, t_{v 2}, \cdots, t_{v n}\right\}$。基于 $I_{Q},I_{V}, T_{K} , T_{V}$,作者从图像 - 文本和文本 - 图像两个方面介绍了本文提出的留神机制。
图像 - 文本上下文非部分留神
提出的图像 - 文本留神模块包含两个阶段。首先,每个视觉查问关注文本键,以取得相应的关注文本值。而后,思考所有视觉值及其相干文本值,能够确定图像 - 文本对之间的相似性。具体来说,为了取得关注的文本值,作者首先计算 $I_{Q}$ 和 $T_{K}$ 的余弦相似矩阵以取得 $T_{V}$ 上的权重:
$$
s_{a, b}=\left[\frac{i_{q a}^{T} t_{k b}}{\left\|i_{q a}\right\|\left\|t_{k b}\right\|}\right]_{+}, a \in m, b \in n,[x]_{+}=\max (x, 0)
$$
其中,$\boldsymbol{s}_{a, b}$ 示意第 a 个视觉查问和第 b 个文本键之间的相似性。此外,作者将其归一化为 $\hat{s}_{a, b}=\frac{s_{a, b}}{\sum_{a=1}^{m} s_{a, b}}$。此外,为了滤除不相干的文本值,作者应用焦点注意力技巧,其中 $\tilde{s}_{a, b}=\left[\sum_{c=1}^{n} \hat{s}_{a, b}-\hat{s}_{a, c}\right]_{+} \hat{s}_{a, b}$。而后,作者计算加权文本值为:
$$
r_{v a}=\sum_{b=1}^{n} \alpha_{a, b} t_{v b}, \alpha_{a, b}=\frac{\exp \left(\lambda_{1} \tilde{s}_{a, b}\right)}{\sum_{b=1}^{n} \exp \left(\lambda_{1} \tilde{s}_{a, b}\right)}
$$
其中 $\lambda_{1}$ 是 softmax 函数的 inverse temperature。
在第二阶段,作者利用 $i_{v a}$ 和 $r_{v a}$ 之间的余弦相似性确定视觉值与其相应文本语境之间的相关性:
$$
R\left(i_{v a}, r_{v a}\right)=\frac{i_{v a}^{T} r_{v a}}{\left\|i_{v a}\right\|\left\|r_{v a}\right\|}
$$
通过均匀所有 $R\left(i_{v a}, r_{v a}\right)$,失去图像 - 文本对的相似性为:
$$
S(I, T)=\frac{\sum_{a=1}^{m} R\left(i_{v a}, r_{v a}\right)}{m}
$$
每个视觉特色都更加关注相干的文本特色。相干的文本特色可能来自一个单词、一个短语或整个句子,这仅仅取决于视觉特色和文本特色是否具备类似的语义。相同,以前的办法偏向于以固定的形式建设对应关系。作者通过启用基于语义的留神机制来建设跨不同尺度的对应关系,从而放松了这些束缚,这有助于更自适应、更正确地对齐图像 - 文本对。
文本 - 图像上下文非部分留神
与图像 - 文本上下文非部分留神相似,作者别离将文本键视为查问和视觉查问视为键,并针对视觉查问关注文本键。而后,利用文本值和关注的视觉值,计算图像 - 文本对之间的相似性。具体而言,第 b 个视觉值绝对于第 a 个文本值的权重定义为 $s_{a, b}^{\prime}=\left[\frac{t_{k a}^{T a} i_{q b}}{\left\|t_{k a}\right\|\left\|i_{q b}\right\|}\right]_{+}, a \in n, b \in m$。归一化和聚焦加权定义为 ${\tilde{s^{\prime}}}_{a, b}=\left[\sum_{c=1}^{m} \hat{s}_{a, b}^{\prime}-\hat{s}_{a, c}^{\prime}\right]_{+} \hat{s}_{a, b}^{\prime}$。
加权视觉值定义为 $r_{v a}^{\prime}=\sum_{b=1}^{m} \alpha_{a, b}^{\prime} i_{v b}$。
应用加权视觉值 $r_{v a}^{\prime}$ 和文本值,作者计算他们的类似度 $R\left(t_{v a}, r_{v a}^{\prime}\right)=\frac{t_{v a}^{T} r_{v a}^{\prime}}{\left\|t_{v a}\right\|\left\|r_{v a}^{\prime}\right\|}$。而后通过均匀操作取得他们最终的类似度 $S^{\prime}(T, I)=\frac{\sum_{a=1}^{n} R\left(t_{v a}, r_{v a}^{\prime}\right)}{n}$。
对齐指标
作者引入了一个名为跨尺度对齐损失(CSAL)的指标函数来优化该算法。给定一 batch 图像 $\left\{I_{i}\right\}_{i=1}^{B}$,题目 $\left\{T_{j}\right\}_{j=1}^{B}$ 和所有图像 - 文本对 $\left\{\left(I_{i}, T_{j}\right), y_{i, j}\right\}_{i=1, j=1}^{B \times B}$,如果 $\left(I_{i}, T_{j}\right)$ 是匹配对,则 $y_{i, j}=1$,否则为 0,作者将 $\left(I_{i}, T_{j}\right)$ 的图像 - 文本相似性定义为 $S\left(I_{i}, T_{j}\right)$,将文本 - 图像相似性定义为 $S^{\prime}\left(T_{j}, I_{i}\right)$。为了最大化匹配对之间的相似性并克制不匹配对的作者将 CSAL 定义为:
其中 $\mathcal{E}$ 示意一个小数字,以防止数值问题。
思考到骨干对多尺度特色至关重要,作者应用的跨模态投影匹配(CMPM)$\mathcal{L}_{C M P M}$ 和跨模态投影分类(CMPC)$\mathcal{L}_{C M P C}$,通过在从全局分支提取的特色上增加 CMPM 和 CMPC 损失来稳固训练过程。因而,最终目标函数为:
$$
\mathcal{L}=\lambda_{2} \mathcal{L}_{C M P M}+\lambda_{3} \mathcal{L}_{C M P C}+\lambda_{4} \mathcal{L}_{C S A L}
$$
3.4. 按视觉街坊从新排序
作者提出了一种多模态从新排序算法,通过将查问的视觉街坊与库(RVN)进行比拟来进一步提高性能。给定文本查问 T,依据图像与查问的相似性对图像进行排序,从而取得初始排名列表。而后,对于初始列表中的每个图像 I,作者依据其视觉示意的相似性取得其 l - 最近邻图像,示意为 $N_{i 2 i}(I, l)$。相似地,能够基于文本示意和图像视觉示意之间的相似性来取得文本查问的最近邻,示意为 $N_{t 2 i}(T, l)$。在这里,为了减速计算,仅应用全局特色来查找最近邻。而后,作者通过比拟最近的街坊和 Jaccard 间隔,从新计算文本查问和图库中每个图像之间的成对相似性:
$$
D_{J}(I, T)=1-\frac{N_{i 2 i}(I, l) \bigcap N_{t 2 i}(T, l)}{N_{i 2 i}(I, l) \bigcup N_{t 2 i}(T, l)}
$$
最初,依据原始类似度和 Jaccard 间隔的均匀分数对库进行从新排序。
4. 试验
上表展现了本文办法在显示了本文的后果与最先进的办法在 CUHK-PEDES 上的比拟。
上表显示了在不同尺度下应用示意的性能。增加部分信息后,Top1 性能从 55.47 进步到 56.90。增加中等规模信息后,top1 性能从 56.90 进步到 59.94。这意味着不同的比例信息有利于对齐过程。
为了验证在不同尺度下将联结对齐引入示意的有效性,作者在上表中将本文的联结对齐与应用预约义对齐的办法进行了比拟。
上表展现了本文提出的不同模块的有效性的融化试验后果。
为了证实 NAFS 在不同尺度下发现联结对齐的能力,作者在不同尺度下可视化了文本形容和图像区域之间的对齐后果,如上图所示。为了更好地可视化所提出的上下文非部分留神机制,作者在区域分支中将输入特色图程度划分为三条条纹,在 patch 分支中划分为六条条纹别离地用红色和黄色高亮显示的图像区域对相应的文本形容具备最高和第二高的注意力权重。对于注意力权重类似的两个子区域,这两个子区域都将突出显示。
5. 总结
作者提出了一种新鲜的基于文本的人员搜寻办法,该办法能够对称为 NAFS 的全尺寸示意进行联结对齐。提出了一种新鲜的楼梯 CNN 网络和部分受限的 BERT 模型来提取多尺度图像和文本示意。上下文的非部分留神机制自适应地调整了不同尺度上的学习示意。对 CUHK-PEDES 数据集的宽泛融化钻研表明,咱们的办法在很大水平上优于最先进的办法。
已建设深度学习公众号——FightingCV,欢送大家关注!!!
ICCV、CVPR、NeurIPS、ICML 论文解析汇总:https://github.com/xmu-xiaoma…
面向小白的 Attention、重参数、MLP、卷积外围代码学习:https://github.com/xmu-xiaoma…
退出交换群,请增加小助手 wx:FightngCV666
本文由 mdnice 多平台公布