TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络 GARN,多个数据集上 SOTA!
【写在后面】
图像 - 文本匹配旨在掂量图像和文本形容之间的相似性,最近获得了很大停顿。这种跨模态匹配工作的要害是在视觉对象和单词之间建设潜在的语义对齐。因为句子构造的宽泛变动,仅应用全局跨模态特色来学习潜在语义对齐十分艰难。许多先前的办法试图通过注意力机制学习对齐的图像 - 文本示意,但通常疏忽文本形容中确定单词是否属于同一视觉对象的关系。在本文中,作者提出了一种 图留神关系网络(GARN),通过对文本中名词短语之间的关系进行建模来学习对齐的图像 - 文本示意,以进行身份感知的图像 - 文本匹配。在 GARN 中,作者首先将图像和文本别离合成为区域和名词短语。而后提出了一种 跳过图神经网络(skip-GNN)来学习无效的文本示意,它是文本特色和关系特色的混合体。最初,进一步提出了一种 图注意力网络,通过对名词短语之间的关系进行建模,取得名词短语属于图像区域的概率。作者对 CUHK Person Description 数据集 (CUHK-PEDES)、Caltech-UCSD Birds 数据集 (CUB)、Oxford-102 Flowers 数据集和 Flickr30K 数据集进行了宽泛的试验,以验证模型中每个组件的有效性。试验结果表明,本文的办法在这四个基准数据集上实现了最先进的后果。
1. 论文和代码地址
Learning Aligned Image-Text Representations Using Graph Attentive Relational Network
论文地址:https://ieeexplore.ieee.org/document/9318563
代码地址:未开源
2. 动机
学习视觉和语言是计算机视觉和模式识别社区的一项重要工作,近年来引起了极大的关注。该畛域有各种钻研工作,例如图像文本检索、视觉问答和图像字幕。深度学习的倒退获得了很大的提高。只管获得了这些提高,但因为视觉和语言之间的语义差距,跨模式匹配仍有待解决。在本文中,作者钻研了身份感知图像文本匹配的工作,该工作旨在搜寻与文本查问具备雷同身份的图像,并检索形容与图像查问雷同身份的文本。
然而,这项工作有几个挑战。首先,语言形容和图像外观之间的简单关系是高度非线性的,例如 名词短语和图像区域之间的对应关系 。其次, 因为关注点不同,人们通常以不同的形容程序来形容同一个图像 。如上图所示,两个句子都形容了两头图像,但它们没有很好地对齐。右边的文字首先形容了 T 恤,而左边的文字首先形容了头发。因为文本中的循环编码方式,不同的句子构造尽管具备雷同的语义,但会导致不同的文本特色。总之,间接应用未摸索图像和文本之间的语义对齐的未对齐特色进行匹配是不适合的。因而,这项工作的挑战在于学习对齐的跨模态特色。受相似察看的启发,一些先前的办法提出应用注意力机制将图像区域与文本词进行匹配。然而这些留神办法将句子中的不同单词视为个体, 疏忽了决定单词是否属于同一视觉对象的单词之间的关系。
为了解决上述问题,作者提出了一个图留神关系网络(GARN),通过对部分文本特色之间的关系进行建模来学习对齐的图像 - 文本示意。模型的框架如图 2 所示。首先利用视觉卷积神经网络(CNN)来提取视觉特色图。而后通过 程度池化 取得程度示意。对于文本输出,首先提取名词短语,而后应用双向长短期记忆 (LSTM) 网络来学习文本特色。针对名词短语的特点,提出了一种跳跃图神经网络,图中的节点示意句子中的名词短语,边示意节点之间的关系。这种跳过图神经网络能够通过将文本特色与关系特色相结合来学习更无效的文本示意。为了学习对齐的图像 - 文本示意,作者提出了一个图留神网络来学习图像区域和名词短语之间的对应关系。该注意力网络通过对名词短语之间的关系进行建模来学习名词短语属于图像区域的概率。在训练模型时,咱们不仅执行全局匹配,还执行部分匹配以学习更多的判断示意。此外,成对排序损失 和辨认损失 都用于联结最小化身份内间隔和最大化身份间间隔。为了证实所提出模型的有效性,作者在四个身份感知跨模态匹配数据集上进行了试验:CUHK Person Description (CUHK-PEDES)、Caltech-UCSD Birds (CUB)、Oxford-102 Flowers 和 Flickr30K,并获得了最先进的后果。
本文工作的次要奉献有四个方面:
• 提出了一种新鲜的图留神关系网络 (GARN) 来学习对齐的图像 - 文本示意。
• 跳过图神经网络旨在通过将文本特色与关系特色相结合来学习无效的文本示意。
• 通过一种新鲜的图形留神网络对潜在的视觉语义对齐进行建模,该网络明确地建模了名词短语之间的关系。
• GARN 在四个具备挑战性的基准测试中获得了最佳性能,这验证了模型的有效性。
3. 办法
在本节中,将具体介绍 图留神关系网络(GARN)。为了学习更无效的文本示意,作者提出了一个跳跃图神经网络。此外,作者提出了一个图注意力网络来学习图像区域和名词短语之间的潜在语义对齐。除了部分匹配外,全局匹配还用于学习全局判断示意。最初,作者联合应用 辨认损失 和成对排名损失 来训练 GARN。
A. Visual and T extual Feature Extraction
给定图像,作者应用视觉 CNN 提取视觉特色。图像特色 $\phi^{\prime}(I) \in \mathbb{R}^{m^{\prime} \times n \times d}$ 在视觉 CNN 的最初一个池化层之前取得。而后将 $\phi^{\prime}(I)$ 划分为 m 个程度条纹。在每个条带中,同一列中的向量被均匀为单个列向量。而后将 $\phi^{\prime}(I)$ 转换为 $\phi(I) \in \mathbb{R}^{m \times n \times d}$,其中 m×n×d 示意有 m×n 个区域,每个区域由一个 d 维向量示意。全局视觉示意 $\psi(I) \in \mathbb{R}^{d}$ 定义如下:
$$
\psi(I)=\operatorname{avgpool}(\phi(I))
$$
其中 avgpool 示意沿 m × n 个区域的均匀池化。部分特色 $V(I)$ 是通过沿列向量均匀池化 $\phi(I) \in \mathbb{R}^{m \times n \times d}$ 取得的,其中 $V(I)=\left\{v_{1}, v_{2}, \ldots, v_{m}\right\}, v_{i} \in \mathbb{R}^{d}$。作者仅对 CUHK-PEDES 数据集应用程度特色。对于 CUB、Flower 和 Flickr30K 数据集,因为它们不具备与 CUHKPEDES 类似的判断程度特色,通过将图像特色 $\phi^{\prime}(I)$ 划分为 $m^{\prime} \times n$ 个视觉特色失去部分局部特色 $V(I)$。
给定一个文本 T,首先将每个单词示意为一个 D 维 one-hot 向量。第 j 个词示意为 $w_{i} \in \mathbb{R}^{D}$,其中 D 是词汇量。而后通过一个嵌入矩阵 $W_{e}$ 将单词嵌入到一个 p 维向量中:
$$
x_{j}=W_{e} w_{j}, \quad j \in[1, z]
$$
其中 z 示意文本 T 中的单词数。基于嵌入向量,通过双向长短期记忆网络 (bi-LSTM) 对它们进行编码,该网络蕴含一个前向 $\overrightarrow{L S T M}$ 和一个后向 $\overleftarrow{L S T M}$:
$$
\overrightarrow{h_{j}}=\overrightarrow{L S T M}\left(x_{j}, \overrightarrow{h_{j-1}}\right), \quad j \in[1, z],\\\overleftarrow{h_{j}}=\overleftarrow{L S T M}\left(x_{j}, \overleftarrow{h_{j-1}}\right), \quad j \in[1, z]
$$
LSTM 单元输出以后的词嵌入向量 $x_{j}$ 和之前的暗藏状态 $h_{j-1}$,并输入以后的暗藏状态 $h_{j}$。全局文本示意 $e^{t}$ 定义为最初暗藏状态 $\overrightarrow{h_{z}}$ 和 $\overleftarrow{h_{1}}$ 的 concat:
$$
e^{t}=\operatorname{concat}\left(\overrightarrow{h_{z}}, \overleftarrow{h_{1}}\right)
$$
对于给定的文本形容,作者利用 NLTK 提取名词短语 N。提取过程如上图所示。与文本形容相似,对于 $N =\left(n_{1}, n_{2}, \ldots, n_{q}\right)$,咱们依据相似公式示意它。因而,能够失去所有名词短语 $e^{n}=\left(e_{1}^{n}, e_{2}^{n}, \ldots, e_{q}^{n}\right)$ 的示意。须要留神的是,作者在对全局文本形容和名词短语进行编码时采纳了雷同的 bi-LSTM。此外,名词短语 q 的数量在不同的文本形容中有所不同。
在取得视觉和文本特色后,掂量它们之间类似度的最简略办法是计算余弦分数。但存在如下一些问题。一方面,间接利用全局未对齐特色无奈提取图像区域和名词短语之间的潜在对应关系 。另一方面, 文本输出之间的错位会影响特色学习和匹配。能够在图 1 中看到,这两个句子都在形容同一个图像,但它们的形容形式不同。因而,学习对齐的图像 - 文本示意具备重要价值。一些工作提出了许多基于注意力的办法来解决这个问题。他们利用视觉(文本)特色来关注文本(视觉)特色或独特留神。然而这些留神办法将句子中不同的名词短语视为个体,而疏忽了它们之间的关系,这对于确定它们是否属于同一视觉区域很重要。例如,手机通常是握在手上的,所以名词短语“phone”和“hand”应该通过建模它们的关系来划分到手的雷同视觉区域。因而,应该对对象之间的关系进行建模以进行无效匹配。
基于上述剖析,作者提出利用图形神经网络(GNN)来建模对象之间的关系来学习对齐的图像 - 文本示意。
B. Skip-GNN for Textual Representation
首先,作者应用图神经网络来学习无效的文本示意。典型的图由示意句子中的名词短语的节点和示意节点之间关系的边组成。给定一组节点 N 及其关系 R,图定义为 G = (N, R),其中 N = {n1, n2, . . . , nq}。对于 GNN 中的节点 k,工夫步 t 的暗藏状态 $s_{k}^{t}$ 基于其先前的暗藏状态 $s_{k}^{t-1}$ 和从其邻域接管的音讯 $\eta_{k}^{t}$ 以循环形式更新。所有节点同时更新。因而,GNN 的公式定义如下:
$$
\begin{aligned} \eta_{k}^{t} &=f\left(\left\{s_{k^{\prime}}^{t-1} \mid k^{\prime} \in \Omega_{k}\right\}\right) \\ s_{k}^{t} &=g\left(\eta_{k}^{t}, s_{k}^{t-1}\right) \end{aligned}
$$
其中 f 是音讯传递函数,g 是节点更新函数。
在这项工作中,思考到 ResNet 和 UNet 获得的巨大成功表明跳过连贯对于模型优化和性能改良十分无效,作者提出了一个跳过 GNN 来建模名词短语之间的关系以及它们由 bi-LSTM 编码的初始特色。初始特色 $e^{n}=\left(e_{1}^{n}, e_{2}^{n}, \ldots, e_{q}^{n}\right)$ 被馈送到 skip-GNN 作为初始输出。为简略起见,上图显示了具备四个节点的全连贯 skip-GNN 模型的构造和更新机制。能够看到,在工夫步 t,第 k 个节点输出输出特色 $a_{k}^{t-1}$ 和音讯 $\eta_{k}^{t}$。作者用名词短语 $e_{k}^{n}$ 的初始特色初始化 $a_{k}^{0}$:
$$
a_{k}^{0}=W_{a} e_{k}^{n}+b_{a}
$$
其中 $W_{a}$ 是输出嵌入矩阵。因为节点与不同的邻域节点有不同的关系,咱们利用邻域节点先前的暗藏状态来定义音讯。因而,具备类似特色的节点彼此之间的关系更加亲密。
$$
\begin{aligned} \eta_{k, j}^{t} &=W_{m} s_{j}^{t-1}+b_{m} \\ \eta_{k}^{t} &=\sum_{j \in \Omega_{k}} \eta_{k, j}^{t} \end{aligned}
$$
其中 $W_{m}$ 是共享音讯嵌入矩阵,$\eta_{k}^{t}$ 示意整个接管到的音讯。而后将 $\eta_{k}^{t}$ 和 $a_{k}^{t-1}$ 连接起来作为最终的输出音讯。因而,节点不仅能够从它们的街坊接管音讯,还能够从它们本人的初始特色接管音讯。通过获取的音讯,能够更新节点的暗藏状态:
$$
s_{k}^{t}=g\left(\operatorname{concat}\left(\eta_{k}^{t}, a_{k}^{t-1}\right), s_{k}^{t-1}\right),
$$
其中 g 示意节点更新函数,相似于 LSTM 单元:
$$
\begin{aligned} f_{k}^{t} &=\sigma\left(W_{f} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{f}\right), \\ i_{k}^{t} &=\sigma\left(W_{i} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{i}\right), \\ \tilde{C}_{k}^{t} &=\tanh \left(W_{C} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{C}\right) \\ C_{k}^{t} &=f_{k}^{t} * C_{k}^{t-1}+i_{k}^{t} * \tilde{C}_{k}^{t}, \\ o_{k}^{t} &=\sigma\left(W_{o} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{o}\right), \\ s_{k}^{t} &=o_{k}^{t} * \tanh \left(C_{k}^{t}\right), \end{aligned}
$$
其中 $W_{f}, b_{f}, W_{i}, b_{i}, W_{C}, b_{C}, W_{o}, b_{o}$ 是学习参数。值得注意的是,这些参数在不同节点之间共享。
而后更新输出特色如下:
$$
a_{k}^{t}=a_{k}^{t-1}+s_{k}^{t}
$$
因为节点特色在每个工夫步之后都会更新,因而该输出特色能够通过在 $a_{k}^{t}$ 和 $a_{k}^{t-1}$ 之间的跳过连贯来交融初始文本特色和节点关系特色。在迭代消息传递 T 步之后,计算最终的交融示意为:
$$
p_{k}=W_{p} a_{k}^{T}+b_{p}
$$
其中 $W_p$ 是输入嵌入矩阵。
因为名词短语 q 的数量在不同的文本形容中有所不同,对于名词短语少于 skip-GNN 中节点数的文本形容,咱们设置了所有未应用节点的暗藏状态、输出音讯和输入音讯在每个工夫步为零,以确保他们无奈接管或发送任何信息。
C. Graph Attention Network for Image-Text Alignment
名词短语之间的关系表明它们是否属于同一视觉区域。为了取得名词短语属于图像区域的概率,作者通过对名词短语之间的关系进行建模,提出了一个图注意力网络。
图注意力网络旨在学习 skip-GNN 模型节点上的注意力矩阵,能够提取与特定图像区域绝对应的节点嵌入。咱们首先形容应用 GNN 架构生成留神矩阵,而后探讨给定留神矩阵的留神过程。
通过典型的 GNN 生成留神矩阵,如下所示:
$$
A=\operatorname{softmax}\left(G N N_{a t t}\left(e^{n}\right)\right),
$$
其中 softmax 函数以逐行形式利用。$e^{n}$ 是名词短语特色,它被馈送到典型的 GNN。$G N N_{a t t}$ 的输入维度对应于预约义的数 m。因而,注意力矩阵 $A \in \mathbb{R}^{q \times m}$。
A 的每一行对应于 skip-GNN 的 q 个名词短语示意之一,A 的每一列对应于一个图像区域,这提供了每个名词短语示意到图像区域的软调配。应用计算出的 A,执行以下操作:
$$
A t t=A^{T} P, \quad A t t \in \mathbb{R}^{m \times 2 l}
$$
其中注意力矩阵 A 聚合了名词短语示意 $P=\left\{p_{1}, p_{2}, \ldots, p_{q}\right\}$ 到 part-level cluster,l 是 bi-LSTM 在文本示意学习中的暗藏维度。
D. Local and Global Matching
利用学习到的对齐图像 - 文本示意,作者测量图像区域和名词短语之间的部分相似性。首先,将图像区域特色 V(I) 和参加的名词短语示意 Att 转换为雷同的特色空间:
$$
\begin{aligned} \tilde{v_{i}} &=W_{v} v^{i} \\ \widetilde{a t t_{i}} &=W_{a t t} a t t_{i}, \quad i=1,2, \ldots, m \end{aligned}
$$
其中 $W_{v} \in \mathbb{R}^{b \times d}$ 和 $W_{a t t} \in \mathbb{R}^{b \times 2 l}$ 是两个变换矩阵,b 是变换后的特色空间的维数。$a t t_{i}$ 示意 Att 的第 i 行向量。
而后,图像区域与名词短语的部分类似度定义为:
$$
\begin{aligned} s_{i} &=\cos \left(\tilde{v}_{i}, a \tilde{t} t_{i}\right), \quad i=1,2, \ldots, m \\ S^{l} &=\sum_{i=1}^{m} s_{i} \end{aligned}
$$
其中 cos 示意余弦函数。
除了部分匹配外,全局匹配也被用来掂量它们的全局类似度。作者计算全局视觉示意 $\psi(I)$ 和文本示意 $e^{t}$ 之间的全局相关性。
作者首先将全局视觉示意 $\psi(I)$ 和文本示意 $e^{t}$ 转换为雷同的特色空间,如下所示:
$$
\begin{aligned} \tilde{e^{t}} &=W_{e^{t}} e^{t} \\ \widetilde{\psi(I)} &=W_{\psi} \psi(I) \end{aligned}
$$
其中 $W_{e^{t}} \in \mathbb{R}^{b \times 2 l}$ 和 $W_{\psi} \in \mathbb{R}^{b \times d}$ 是两个变换矩阵。
而后按如下形式计算全局类似度:
$$
S^{g}=\cos \left(\widetilde{\psi(I)}, \tilde{e^{t}}\right) .
$$
E. Learning Procedure
成对排序损失是匹配工作中罕用的损失函数,旨在确保正比照负对更靠近。许多以前的工作从数据集中随机抉择负对,并疏忽了 mini-batch 中其余负样本的影响。在本文中,作者将最难的负样本集中在一个 mini-batch 中。给定一个正对 $\left(I_{p}, T_{p}\right)$,最难的负对定义如下:
$$
T_{\widehat{h}}=\operatorname{argmax}_{t \neq T} S(I, t)\\I_{\widehat{h}}=\operatorname{argmax}_{i \neq I} S(i, T),
$$
其中 $T_{\widehat{h}}$ 是图像 $I_{p}$ 的最难文本样本,$I_{\widehat{h}}$ 是文本 $T_{p}$ 的最难图像样本。因而,本文的排名损失定义为:
$$
\begin{aligned} L_{r}(I, T)=& \max \left(\alpha-S(I, T)+S\left(I, T_{\widehat{h}}\right), 0\right) \\ &+\max \left(\alpha-S(I, T)+S\left(I_{\widehat{h}}, T\right), 0\right) \end{aligned}
$$
其中 α 是边距。此损失函数确保正比照最难的负对更靠近,这可能决定由 top-1 准确度掂量的胜利或失败。对于全局匹配分数,能够取得全局排名损失 $L_{r}^{g}$。
除了 ranking loss,identity-level 匹配也采纳了 identification loss。全局图像和文本辨认损失 $L_{i}^{g}$ 和 $L_{t}^{g}$ 定义如下:
$$
L_{i}^{g}=-y_{i d} \log \left(\operatorname{softmax}\left(W_{i d}^{g} \widetilde{\psi(I))}\right)\right.\\L_{t}^{g}=-y_{i d} \log \left(\operatorname{softmax}\left(W_{i d}^{g} \tilde{e^{t}}\right)\right)
$$
其中 $W_{i d}$ 是用于对特色示意进行分类的变换矩阵,$y_{i d}$ 是 GT 身份,$L_{i}^{g}$ 和 $L_{t}^{g}$ 别离是全局视觉和文本辨认损失。
那么总的全局损失定义为:
$$
L^{g}=L_{r}^{g}+\lambda_{1} L_{i}^{g}+\lambda_{2} L_{t}^{g}
$$
相似地,能够失去总部分损失 $L^{l}$。λ 是管制每个损失函数的绝对重要性的超参数
最终的损失函数定义为:
$$
L=L^{g}+\lambda_{3} L^{l}
$$
在测试阶段,咱们计算图像 - 文本对之间的总类似度 S 用于检索评估,其定义如下:
$$
S=S^{g}+\lambda_{3} S^{l}
$$
4. 试验
将后果与 CUHK-PEDES 的最新办法进行比拟。
将后果与 CUB 和 FLOWER 数据集上的最新办法进行比拟。
将后果与 FLICKR30K 数据集上的最新办法进行比拟。
在 CUHK-PEDES 上提出的 GARN 中不同成分的融化剖析。
提出的 GARN 对来自 CUHK-PEDES 的两个示例的每个图像区域的参加名词短语进行可视化。
通过两种模型(基线和 GARN)在 CUHK-PEDES 数据集上给定文本查问的图像检索的定性后果。
CUHK-PEDES 数据集准确性比拟后果 (%)。
在 CUB 和 Flower 数据集上给定文本查问的图像检索和给定图像查问的文本检索的定性后果。
提出的基线、baseline+id 和 GARN 在 CUHK-PEDES 数据集上学习的图像和文本特色的 t-SNE 可视化。
5. 总结
在本文中,作者提出了一种图留神关系网络来学习对齐的图像 - 文本示意,以进行身份感知的图像 - 文本匹配。本文的次要奉献是通过建模名词短语之间的关系来改良文本示意和学习图像和文本之间的语义对齐。这些别离通过跳过图神经网络和图留神网络来实现。在匹配过程中,全局匹配和部分匹配都被用来学习更多的判断示意。作者在对四个身份感知数据集进行了宽泛的试验,试验结果表明,本文的办法比最先进的办法获得了更好的性能,这验证了本文的 GARN 在身份感知图像文本匹配中的有效性。
【我的项目举荐】
面向小白的顶会论文外围代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch
面向小白的 YOLO 指标检测库:https://github.com/iscyy/yoloair
面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
“点个在看,月薪十万!”
“学会点赞,身价千万!”
【技术交换】
已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、学术科研交换,欢送大家关注!!!
请关注 FightingCV 公众号,并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。
举荐退出 FightingCV交换群 ,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称
本文由 mdnice 多平台公布