关于人工智能:ICCV2021你以为这是一个填色模型其实我是检索模型

30次阅读

共计 7022 个字符,预计需要花费 18 分钟才能阅读完成。

【写在后面】

语言疏导的人称搜寻的要害是在视觉输出和文本输出之间建设跨模态关联。现有办法侧重于设计多模态留神机制和新的跨模态损失函数来隐式学习这种关联。作者提出了一种基于色彩推理(LapsCore)的语言引导人搜寻示意学习办法。它能够明确地双向建设细粒度跨模态关联。具体来说,设计了一对双子工作,图像着色和文本实现。在前一个工作中,学习富文本信息以对灰度图像进行着色,后一个工作要求模型了解图像并实现题目中的黑白文字空缺。这两个子工作使模型可能学习文本短语和图像区域之间的正确对齐,从而能够学习丰盛的多模态示意。在多个数据集上的大量试验证实了该办法的有效性和优越性。

1. 论文和代码地址

LapsCore: Language-guided Person Search via Color Reasoning

论文地址:https://ieeexplore.ieee.org/document/9711140/

代码地址:未开源

2. Motivation

语言疏导的人搜寻在智能监控中有着广大的利用前景,因而引起了人们的宽泛关注。如上图所示,它旨在从与自然语言形容查问最匹配的大型图像数据库中检索人物。与基于图像和基于属性的 person ReID 相比,语言查问比图像查问更容易取得,并且提供了比属性更全面和精确的形容。

在语言疏导的人员搜寻工作中存在两个次要挑战。首先,因为跨模态间隙,很难计算视觉文本的真实性并构建图像 - 文本对齐 。其次, 人员搜寻是一项细粒度的检索工作:(1)文本为指标人提供十分具体的形容;(2)人物形象在外观上存在显著的跨类差别。

在语言引导人搜寻的开创性工作之后,人们投入了大量精力来应答这项工作的挑战。一些工作设计高级模型,学习更好的图像和文本示意。另一些工作中开发了注意力机制,以建设部分图像 - 文本关联。还有一些工作提出了新的损失函数来放大视觉和文本特色之间的间隔。然而,所有这些办法都隐含地学习了跨模态部分关联,这对模型的学习能力留下了严格的测试。从大量的语言引导人搜寻试验中,作者察看到色彩在检索中起着重要作用。面对集体图像,人类偏向于承受视觉色彩来提取外观信息,而后了解与这些色彩相干的衣服或装饰品。因而,作者受到启发,提出了一种新的示意学习办法 LapsCore,通过求解色彩推理子工作,疏导模型明确学习细粒度跨模态关联。

如上图所示,第一个子工作,文本疏导图像着色(IC),是依据其文本形容对灰度图像进行着色。在该工作中,模型可能正确探测文本中丰盛的色彩信息,并将其与相应的图像区域对齐。例如,在上图中,不仅须要提取单词“red”,还须要将“shirt”的语义与“red”配对,并且图像中示意“shirt”的空间区域应为红色。因而,能够结构文本到图像的部分关联。对于相同方向的图像到文本,设计了另一个 子工作图像疏导文本实现(TC)。具体来说,在每个形容句子中,删除所有色彩词,这些空缺须要利用成对的彩色图像来实现。这样,无效的图像区域能够显著地示意,而后与相干的文本短语相关联。尽管色彩推理工作对于人类来说并不简单,但它们须要模型的全面跨模态了解来解决。通过应用这两个子工作,能够在主工作 图像文本匹配 中利用更好的多模态示意。此外,作者提出了另一个“色彩”推理子工作 $\mathrm{IC}_{f}$,旨在应用字幕实现缺失通道的图像特色,该工作将 IC 工作从图像色彩通道实现推广到特色语义通道实现。给定输出图像的特色示意,作者局部屏蔽了一些通道,并应用题目来复原它们。在此过程中,能够探测和利用包含色彩在内的个别文本信息。因而,在色彩不是题目中的次要信息的状况下,它赋予了本文的办法鲁棒性。

为了解决第一个子工作 IC,作者将其转化为像素回归问题。将原始图像处理为灰度图像作为输出,并应用成对字幕复原原始图像。TC 工作能够被视为视觉问答问题,其中问题是一个带有色彩词空缺的句子,答案是候选色彩之一。在图像特色通道实现子工作中,作者首先在集体 ID 分类工作上预训练特征提取器,而后屏蔽视觉特色图,以便应用字幕进行复原。作者在语言领导的人员搜寻数据集 cuhk-pedes 上进行了宽泛的试验。试验证实,该办法能够显著进步性能。对通用图像文本检索数据集的验证也证实了其有效性,包含加州理工大学 UCSD Birds、Oxford-102 Flowers、Flickr30k 和 MSCOCO。

综上所述,本文工作的次要奉献包含:

1)提出了一种新的示意学习办法 LapsCore,以便于明确学习细粒度跨模式关联。它通过求解色彩来工作推理子工作、图像着色、文本实现和图像特色通道实现。

2)在具备挑战性的语言领导的人员搜寻数据集 CUHK-PEDES 上进行了宽泛的试验。事实证明,LapsCore 能够无效地带来可观的性能晋升并实现最先进的后果。

3)所提出的办法被证实是通用的,能够纳入不同的基线并带来改良。在其余跨模态检索工作中也证实了该办法的有效性。

3. 办法

在本节中,将介绍所提出的办法 LapsCore。如上图(左局部)所示,LapsCore 通过两个色彩推理子工作(文本疏导图像着色(IC)和图像疏导文本实现(TC))生成代表性的多模态特色。

3.1. Text-guided Image Colorization

IC 工作旨在利用文本形容对灰度图像进行着色,这些灰度图像从原始图像处理为灰度图像。在此工作中,模型致力了解题目,并摸索用于着色的无效信息。因而,能够构建文本到图像的关联。

整个工作能够转化为像素回归问题。多模态回归模型表示为 $f_{i c}$,以灰色图像 $I_{g r a y}$ 和形容语句 $T_{\text {color}}$ 对作为输出,并输入复原的图像。将原始彩色图像 I 设置为指标,并应用像素均方误差损失 $\mathcal{L}_{i c}$:

$$
\mathcal{L}_{i c}=\left\|f_{i c}\left(I_{g r a y}, T_{c o l o r}\right)-I_{\text {color}}\right\|_{2}^{2}
$$

为了解决这项工作,作者采纳了 U -Net 框架,该框架对灰色图像进行编码,并通过交融文本信息将其解码为彩色图像,如上图(左上角)所示。在编码阶段,咱们从输出中提取多尺度视觉特色。将比例为 s 的特色图示意为 $\mathbf{Y}^{s} \in \mathbb{R}^{h_{s} \times w_{s} \times c_{s}}$,其中 h、w、c 别离示意高度、宽度和通道。在文本分支中,形容语句被标记并输出到嵌入层。而后,LSTM 提取文本特色 $\mathbf{X} \in \mathbb{R}^{N}$。

在解码阶段,视觉特色应与文本特色交融以进行着色。因而,咱们设计了多模态 SE 块,利用通道留神机制,以便文本信息能够影响图像特色通道。多模 SE 块中的操作如上图所示(右上角的灰色虚线框)。首先,视觉特色图 Y 通过全局池化被压缩为特征向量 $\mathbf{v}^{s} \in \mathbb{R}^{c_{s}}$。与文本特征向量 X concat,而后将 $\mathbf{V}_{s}$ 馈入两层多层感知器和 softmax 层以生成留神向量 $\mathcal{A}^{s} \in \mathbb{R}^{c_{s}}$。最初,利用 $\mathcal{A}^{s}$ 将 $\mathbf{Y}^{s}$ 更新为多模式示意 $\mathbf{Z}^{s}$:

$$
\mathbf{Z}_{i}^{s}=\mathbf{Y}_{i}^{s} \cdot \mathcal{A}_{i}^{s}
$$

其中下标 $i \in\left\{1,2, \ldots, c_{s}\right\}$ 示意通道的索引,$\mathbf{Z}_{i}^{s}, \mathbf{Y}_{i}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}, \mathcal{A}_{i}^{s}$ 是标量。

U-Net 的解码器由几个反卷积层组成。首先,编码器中的最初一个 $\mathbf{Y}^{s}$ 穿过第一个反卷积层,以生成特色映射 $\mathbf{W}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}$。每个 $\mathbf{W}^{s}$ 与 SE 块输入 $\mathbf{Z}^{s}$ 串联,并通过反卷积层生成更大的 $\mathbf{W}^{s}$。作为最初一步,给定最初一个反卷积层中的 $\mathbf{W}^{s}$,应用简略的上采样和卷积来预测指标。

3.2. Image-guided Text Completion

双重工作 TC 须要利用彩色图像来实现带有黑白单词空缺的文本形容。对于每个句子,删除所有色彩单词以创立“无色”形容。这些空位应该通过剖析不同图像区域的前景色来填充。这样,能够桥接图像到文本的关系。

此工作能够视为 VQA 问题。VQA 模型,示意为 $f_{t c}$,以彩色图像,$I_{\text {color}}$ 和带有空缺的文本句子 $T_{q}$ 作为输出,并输入短少的色彩单词。指标答案是从原始形容中删除的色彩单词 $T_{a}$。采纳典型的穿插损失 $\mathcal{L}_{t c}$,公式为:

$$
\mathcal{L}_{t c}= CrossEntropy \left(f_{t c}\left(I_{c o l o r}, T_{q}\right), T_{a}\right)
$$

作者参考了风行的 VQA 模型 (双线性留神网络 (BAN)) 的构造来解决 TC 工作。见上图(右下角),视觉和文本特色由 MobileNet 和 LSTM 从输出数据中提取。将文本特色示意为 $\mathbf{X} \in \mathbb{R}^{N \times \rho}$ 和视觉特色为 $\mathbf{Y} \in \mathbb{R}^{M \times \phi}$,其中 N 是序列长度,ρ 是 LSTM 输入维度,φ 示意 MobileNet 输入的通道号,M=h×w 是空间维度的乘积。给定两个模态特色 X 和 Y,通过计算特色 patch 之间的含糊度分数生成若干双线性注意力图 $\mathcal{A}_{g}$,公式如下:

$$
\mathcal{A}_{g}=\operatorname{softmax}\left(\left(\left(\mathbf{1} \cdot \mathbf{p}_{g}^{\top}\right) \circ \mathbf{X}^{\top} \mathbf{U}\right) \mathbf{V}^{\top} \mathbf{Y}\right)
$$

其中 $\mathbf{U} \in \mathbb{R}^{N \times K}$ 和 $\mathbf{V} \in \mathbb{R}^{M \times K}$ 是投影矩阵,$\mathbf{1} \in \mathbb{R}^{\rho}$ 是一个全一向量,$\mathbf{p}_{g} \in \mathbb{R}^{K}$,其中 g 示意注意力图索引,$\mathcal{A}_{g} \in \mathbb{R}^{\rho \times \phi}$,$0$ 示意 Hadamard 积。

在注意力图的帮忙下,X 和 Y 交融成联结示意。残差学习办法用于进步表征能力。在第 g 个残差块中,输入 $\mathbf{F}_{g+1} \in \mathbb{R}^{K \times \rho}$ 的计算公式为:

$$
\mathbf{F}_{g+1}=\mathbf{P}^{\top} \operatorname{BAN}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right) \cdot \mathbf{1}^{\top}+\mathbf{F}_{g}
$$

其中 $\mathbf{1} \in \mathbb{R}^{\rho}$ 是一个全一向量,投影矩阵为 $\mathbf{P} \in \mathbb{R}^{K \times C}$。通过将 N 设置为 K,将 X 用作初始输出 $\mathbf{F}_{0}$。生成两头示意的函数,定义为 $\mathbf{f}_{g}=\mathbf{B A N}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right)$,其中 $\mathbf{f}_{g} \in \mathbb{R}^{C}$,其第 k 个元素计算为:

$$
\mathbf{f}_{g, k}=\left(\mathbf{F}_{g}^{\top} \mathbf{U}^{\prime}\right)_{k}^{\top} \mathcal{A}_{g}\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k}
$$

其中 $\mathbf{U}^{\prime} \in \mathbb{R}^{N \times K}, \mathbf{V}^{\prime} \in \mathbb{R}^{M \times K},\left(\mathbf{X}^{\top} \mathbf{U}^{\prime}\right)_{k} \in \mathbb{R}^{\rho},\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k} \in \mathbb{R}^{\phi}$,矩阵的下标 k 示意列的索引。

给定最初一个残差块输入的联结特色示意,采纳多层感知器(MLP)分类器预测每个单词空缺的色彩类别。

3.3. Generalized IC: Feature Channel Completion

彩色图像由 3 个通道“YCbCr”组成,灰度图像是删除两个色彩通道“Cb”和“Cr”的后果。从新思考 IC 工作,其目标是利用文本色彩信息来复原两个缺失的通道。尽管这种办法能够通过色彩桥接跨模态关联,但当色彩在形容中很小时(例如,在 MSCOCO 数据集中),可能无奈无效地学习文本信息。因而,咱们提出了一种狭义的 IC,示意为 $\mathrm{IC}_{f}$,它应用文原本实现图像特色的缺失通道。

如上图所示,ResNet18 在辨认工作中预训练,以从图像中提取丰盛的示意,而后“解冻”为特色生成器。作者屏蔽了图像特色的一些通道,并将屏蔽后的特色输出到实现模型中,以残缺的特色为指标。$\mathrm{IC}_{f}$ 中的完井模型和损失函数与 IC 中的雷同,只是输出和输入比例相应地调整。

3.4. Incorporation

该办法能够作为一种多模态示意学习办法纳入风行的图像文本匹配算法。穿插模态投影匹配和分类(CMPM/C)模型采纳了通用框架,该框架别离采纳 LSTM 和 MobileNet 作为文本和视觉特征提取器。在这里抉择 CMPM/ C 作为跨模式匹配模块来实现 LapsCore,并且它能够很容易地推广到该框架的其余办法。为了合并,作者删除了 CMPM/ C 中的特征提取层,替换为 IC 和 TC 模块的表示层,如图 2 的左局部所示。将 CMPM/ C 中的匹配损失定义为 $\mathcal{L}_{c m p}$,而后将 / 总体多任务损失 L 计算为:

$$
\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{1} \mathcal{L}_{i c}+\lambda_{2} \mathcal{L}_{t c}
$$

其中 $\lambda_{1}, \lambda_{2} \in \mathbb{R}^{+}$ 是均衡每个子工作重要性的标量因子。将 $\mathrm{IC}_{f}$ 合并到 CMPM/ C 的形式相似,多任务损失写为:

$$
\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{3} \mathcal{L}_{i c_{f}}
$$

其中 $\lambda_{3} \in \mathbb{R}^{+}$ 是一个均衡因子。

4. 试验

上表展现了本文办法和 SOTA 后果的比照后果。

上表展现了本文提出的不同模块对试验后果的影响。

给定雷同的语言查问,基线(CMPM/C)和本文的办法(CMP+IC\&TC)的检索后果如上图所示。相比之下,本文的办法更无效地检索匹配的人(第一行)。它还揭示了 LapsCore 使模型对色彩更敏感,从而使检索后果更正当。

上图展现了本文办法对不同的图片进行着色的后果。

上图展现了对着色模块改为其余办法的可视化。

上表展现了这些变体的性能。

上表展现了在其余图文检索数据集上进行检索的试验后果。

5. 总结

在本文中,作者提出了 LapsCore,它应用两个色彩推理子工作来改良语言疏导的人搜寻的示意学习。第一种办法旨在利用文本信息对灰度图像进行着色。在双向上,利用彩色图像来实现题目中的黑白文字空缺。此外,作者提出了残缺的视觉特色通道,实用于个别的图像文本匹配工作,其中色彩在题目中不占主导地位。定量和定性试验后果以及宽泛的融化钻研表明了该办法的优越性。


已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、科技新闻速递,欢送大家关注!!!

FightingCV 交换群里每日会发送论文解析,进行学术交流,加群请增加小助手 wx:FightngCV666,备注:地区 - 学校(公司)- 名称

面向小白的顶会论文外围代码学习:https://github.com/xmu-xiaoma…

本文由 mdnice 多平台公布

正文完
 0