关于深度学习:视频人员重识别关系引导空间注意力-时间特征提取模型

作者 | Ass
编辑 | CV 君
报道 | 我爱计算机视觉（微信 id：aicvml）

2020 年顶会论文中，很多都会将关系退出到注意力机制的获取中。

除了该文，还有 2020 年 CVPR 的基于视频的 Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification、基于图像的 Relation-Aware Global Attention 等。

该办法都会在这些论文中有着很好的成果，可见这是在行人重辨认畛域一大倒退。

论文名称：Relation-Guided Spatial Attention and Temporal Refinement for Video-Based Person Re-Identification(基于关系疏导的空间注意力和工夫特征提取的基于视频的行人再辨认)
第一作者：Xingze Li
通信作者：Wengang Zhou
作者单位：CAS Key Laboratory of Technology in GIPAS, EEIS Department, 中国科学院电子工程与信息科学系 University of Science and Technology of China（中国科学技术大学）

RGSA（relation-guided spatial attention）模块 ：每个 spatial 地位的 注意力 由它的特色和与所有地位的关系向量决定 （也就是关系疏导），并最终交融为一个 frame 的特色，它可能捕获部分和全局信息， 同时定位特色区域而克制背景信息。同时作者提出，感触野要尽量的小，能力提取出更加具备区别性的特色。
RGTR（relation-guided temporal refinement）模块：所有帧与帧的关系信息使得各个帧之间可能互相补充，有助于加强帧级特色示意。
RM 关系模块：计算特色之间的关系应用的办法不再是 dot 或 inner，而是本人开发了一种 RM 关系模块来生成两个特色的关系向量。
GRV（global relation vector）：通过计算每个 spatial 地位的的关系和各个 frame 之间的关系，生成 spatial-level 和 frame-level 的 GRV。并别离用在了 RGSA 和 RGTR 模型中。

PS：Spatial feature：指的是以（i，j）每个像素为单位的特色。为 1x1xC 维度。

基于图像的所取得的信息是无限的，尤其是当受到 遮挡或者有异样点时。
基于视频的行人重辨认畛域中，通常的做法是将部分信息交融为全局，而后预计全局（frames）或部分（parts）区域的品质，并将品质用作交融特色的权重。通常，这些办法仅仅独自思考每个区域的品质，而疏忽了 区域内的品质差别和上下文信息。

基于视频畛域常常应用的办法是 RNNs、卷积运算和注意力机制对空间和工夫信息进行建模。他们中应用光流来提取低层次的静止信息，或者应用注意力机制来评估每个 frame 的品质分数。与这些捕获 部分信息的办法不同 ，咱们的办法利用很少摸索的全局关系信息来 疏导空间注意力和工夫特征提取。

传统的 Non-Local Mechanisms 中，特色之间的相似性被归一化以用作关注，并且每个特色由所有特色的加权和来更新。在所有上述非部分机制中，特色通过加权求和操作来更新，其中 类似的特色具备大的权重。

毛病：这种办法在无效获取 上下文信息和辨认更新特色的区别区域方面 存在局限性。咱们的 ：与这些办法不同，咱们的办法摸索 全局关系信息 以聚焦于 informative foreground，并使框架在上下文中互相补充。

提出新的 RM 模型用来提取工夫和空间特色之间的关系，生成 GRV，能够使得在空间地位上定位 特色区域而克制背景信息 。每个地位的 注意力 由它的 特色和与所有地位的关系向量决定 ，它可能捕获部分和全局信息。又能在空间地位上进一步提取和加强 帧之间 的特色，所有帧内的关系信息使得各个帧可能互相补充，有助于加强帧级特色示意。

次要介绍总体框架 、RM（relation module）, 基于 RM 生成的 GRV 全局关系向量、RGSA（relation-guided spatial attention module）、RGTR（relation-guided temporal refinement module）、Loss function

Framework Overview

输出：video clip，T 帧

过程：

T 帧别离进入 CNN 生成特色图（t=1~n-1）
进入 RGSA（以 spatial 为单位，找各个之间的关系），生成被关系疏导 attention 后组合成帧级特征向量的
ft 进入 RGTR（找 Frame 之间的关系），其特色的均匀混合为一个视频级特征向量
采纳的损失蕴含：帧级的穿插熵损失、视频级的穿插熵损失、三元组损失。

Relation Module

两个特色之间的关系，个别应用 np.inner() 或者是 np.dot() 来计算的，然而

Inner product（内积）只是表明这些个性在多大程度上是类似的。从这种关系中不能推断出一些具体的信息，如 哪些局部类似，哪些局部不同。
np.dot() 则使得差别关系并 不严密，蕴含冗余信息、计算耗费。

因而，咱们开发了一个 关系模块 来生成两个特色的 关系向量 ，与内积和差相比，该关系向量 既信息丰盛又紧凑。

框架：

能够看到的是，输出两个特色，计算两者关系

目标：就是设计一个 RM 模型，通过计算来获取两个特色之间的关系！

步骤：

输出：

过程：

① 计算两个特色的差别

其中

、

全连贯层中参数权重

② 以 difference 为根底，计算 more compact relationvector

其中

输入：

Relation-Guided Spatial Attention

学习 attention 来关注 foreground object（应该关注的中央），然而传统的 Deep stack of convolutional operations 时，无效感触野比实践感触野小得多。也就是说，你用卷积来做的话，必然卷积核是大于等于 1 的，然而往往 informative 的区域比这还小。也就是 local-aware。

因而咱们

提出 Local-aware，以（i，j）每个像素 为单位的 D 层的特色，每个空间地位的注意力由它的特色以及来自所有地位的关系向量决定，揭示了部分和全局信息之间的依赖性。
生成的 GRV 通过和原特色 concat 后通过 FC 层生成权重信息，能够生成被关系疏导的 attention，从而更好的实现特色聚合。

框架：GRV 和 RGSA

GRV（步骤①~③）生成关系向量

RGSA（步骤④和⑤）

GRV 关系特色和特色 concat 后通过 FC 层被称为是 关系疏导

步骤：

输出：（未经解决的 frame-level 的特色）

过程：

① Reshape 成 spatial vector（X）

一个图像的 Feature maps 是。因而有 N（N= H × W）个不同的空间地位，并且每个特色都是 C 维度的。因而加以 reshape。其中表明是第 i 个地位的特色。

②利用 RM 来计算第 i 个地位特色和其它地位的关系向量

③ 生成全局 global 关系向量

其中蕴含全局比拟信息

④ 生成 spatial-level 的 GRV

与 original feature 联合，之后通过全连贯层和 BN 层，生成空间注意力得分。

其中，和

⑤生成 frame-level 特色 f（Xàf）（关系是用的 spatial-level）

最终特征向量交融了空间注意力，为：

输入：通过解决的 frame-level 特色 f

Relation-Guided Temporal Refinement

在 Temporal feature fusion 上，罕用的办法预计不同帧的品质，并通过加权求和操作交融特色。

然而毛病是：当互相比拟时候，乘以低质量的 frames 可能会蕴含更多信息（低质量的特色可能也会蕴含有用的信息 ），因而咱们利用不同的帧能够互相补充，并被细化和聚合以加强辨别能力的个性，开发了一个 关系疏导的工夫提取模块，通过它与其余帧的特色的关系来提取帧级特色。

框架：

目标：取得最终特色！办法和 RGSA 类似！只是最初不再依据权重来计算每一帧的输入，而是求均匀。因为，不同 frame 可能含有不同的区别性特色！

步骤：

输出：（通过 CNN 和 RGSA 层之后的）

过程：

① 取得 frames 之间的成对关系

通过 RM 取得

② 生成 frame-level 的 GRV

其中

③ 生成 frame-level 特色（关系应用的是 frame-level）

利用 GRV 与的 concat，之后通过 FC 层和 BN 层生成特色

④ 生成 clip-level 特色

与下面不同的是，这里间接求 mean

其中、

补充：GRV 在两个框架的作用

① RGSA

开发分别区域并克制背景（因为有权重啊！背景多很显然是被升高了权重）

② RGTR

加强 frame-level 特色的 discriminative 能力，从而强化加强 frame-level 特色的 discriminative 能力，从而强化 clip-level 的特色示意

Loss Function

整体是由穿插熵损失函数和三元组损失组成

cross entropy loss（穿插熵损失函数）

输出：each batch 蕴含了 P identities and K video

过程：和大多数办法是一样的

其中是 Clip-level 的穿插熵损失

是 frame-level 的穿插熵损失，用于加强帧级特色的辨别能力

triplet loss

输出：，p 行人的第 k 个 clip

P 行人的 positive 样本

P 行人的 negative 样本

过程：

Triplet loss 办法个别分为 batch hard triplet loss 和 adaptive weighted triplet loss，其中前者抉择间隔最近的和最远的正负样本，而后者在所有样本，硬样本权重较大，简略样本权重较小。作者抉择了后者。

正样本的权重：

负样本的权重：

Triplet Loss：

其中，

Overall：

Train：

① 数据集：MARS、DukeMTMC-VideoReID、iLIDS-VID、PRID-2011；

② 试验细节：在训练阶段随机从视频中筛选 T 帧，每个 batch 蕴含 P 个行人 ID，每个行人 ID 蕴含 K 个视频；数据输出采取随机翻转、随机擦除；骨干网络采纳预训练的 ResNet50；训练阶段选取帧数为 T/2；采纳 4 块 NVIDIA Tesla V100 GPU 进行训练测试；

其中：Resnet50 框架，最初一层要改掉。

③ 参数设置：P = 18，K = 4，即 batch size = 72 T；输出图像规格为 256*128；训练器为 Adam，其 weight decay = 5*10-4；迭代次数为 375 次；学习率为 3*10-4，在 125 个 epoch 和 250 个 epoch 后均降落到 0.1 倍。

Test：

①T->T/2

②所有的 Clip-level 的 frames 被提取之后，并应用 L2 正则化来生成序列特色

③应用余弦间隔来匹配 query 和 gallery 的图像

能够看到在 baseline 根底之上别离增加损失和，增加 RGTA 和 RGTR 之后性能都有晋升！证实了办法的有效性。

Table2 和 3 是别离试验了 difference factors 和 difference clip length 的 rank1 和 mAP 分数。

别离与在 MARS dataset、iLIDS-VID and PRID2011 dataset、DukeMTMC-VideoReID dataset 三个数据集成果。

关于深度学习:视频人员重识别关系引导空间注意力-时间特征提取模型

看点

Motivation

Contribution

Method

Framework Overview

Relation Module

Relation-Guided Spatial Attention

Relation-Guided Temporal Refinement

Loss Function

cross entropy loss（穿插熵损失函数）

triplet loss

Experiments

Implementation Details

Ablation Study

Just My Socks（注册教程内含优惠码）

关于深度学习:视频人员重识别关系引导空间注意力-时间特征提取模型

看点

Motivation

Contribution

Method

Framework Overview

Relation Module

Relation-Guided Spatial Attention

Relation-Guided Temporal Refinement

Loss Function

cross entropy loss（穿插熵损失函数）

triplet loss

Experiments

Implementation Details

Ablation Study

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）