关于机器学习:基于注意力的多行人属性识别的深度学习模型

26次阅读

共计 1747 个字符,预计需要花费 5 分钟才能阅读完成。

论文题目《An Attention-Based Deep Learning Model for Multiple Pedestrian Attributes Recognition》

链接:https://arxiv.org/abs/2004.01110

作者单位:清华大学

年份:2020

1. 论文次要解决什么问题?

行人属性预测是一个多任务学习问题。为了共享特色表白,传统的多任务学习办法通常学习特色或者特色子空间的线性组合。然而这种组合排除了通道之间的简单的互相依赖性。更何况,空间信息替换也很少被思考。论文提出了协同注意力共享 (CAS) 模型来提取具备判断力的通道和空间区域,以便在多任务学习中很好地共享特色。

说人话:以前多任务的办法真弱鸡,很多都只是把特色简略相加,不思考特色通道信息依赖性和空间信息的交互?

2. 论文如何解决问题?

行人属性分类办法中,罕用的网络结构如如图 1 所示:

  • Hard-Sharing 构造,然而可能容易产生负转移问题,也就是说对一个某个行人属性进行预测的时候可能容易被其余属性所影响。
  • Vanilla 构造,它集成了两个独立的网络结构,别离负责预测不同的属性。分割严密的属性就分成同一个组,由同一个网络负责。然而两个网络之间没有任何的交互,一些有用的相干信息可能没有被利用起来。
  • Soft-Sharing 构造,集成 Hard-Sharing 和 Vanilla 构造的长处,每一层利用一个模块来决定哪些特色该共享哪些不该共享。

之前的多任务学习的办法,譬如 Cross Stich 模块和 Sluice 模块,不同工作之间的特色交互只是通过简略的元素相加操作,疏忽了通道信息。而且行人属性通常跟不同的空间地位有较大的关系。因而作者提出了协同注意力共享 (CAS) 模型来提取具备判断力的通道和空间地位,以便在网络间共享特色。

作者提出的 CAS 模型如图 2 所示:

这一种 Soft-Sharing 构造,由两个网络及其两头的交互模块组成。高低两个网络结构是统一的,输出特色 $ feat $ 通过 GAP(全局均匀池化)失去 $V_g$,而后把 $V_g$“喂入”全连贯层便可失去两头向量 $V_m$。

  • 协同分支(Synergetic Branch):该分支的输出为 $V_{sh}$,它由下面的网络 $A$ 和上面的网络 $B$ 的两头向量 $V_m$ 通过全连贯层失去的后果。$V_{sh} $ 与该层的 $feat$ 进行 $element-wise$ 相乘操作,后果别离记为 $feat^A$ 和 $feat^{B}$。而后对 $feat^A_{sh}$ 和 $feat^{B}_{sh}$ 进行通道接拼,失去 $feat_{cat}$。而后 $concat(Avg(feat_{cat}),Max(feat_{cat}))$,对其后果进行卷积操作,后果记为 $M$。其中 $Avg$ 和 $Max$ 别离是通道上的平均值和最大值函数。$feat_{cat}$ 通过卷积失去 $feat_{sym}$。协同分支的输入便是 $M$ 和 $feat_{sym}$ 了。其中 $M$ 将会被送入到注意力分支。
  • 注意力分支(Attentive Branch):该分支的输出为 $V_a$,它由 $V_m$ 通过全连贯层所失去。而后 $V_a$ 与协同分支的输入 $M$ 进行 $element-wise$ 相乘,其后果记为 $A$。
  • 工作分支(Task-specific Branch):该分支的输出为 $V_t$,它也是由 $V_m$ 通过全连贯层所失去。而后 $V_a$ 与该层的 $feat$ 进行 $element-wise$ 相乘,其后果记为 $feat_t$。
  • 分支聚合:$feat$,$feat_{sym}$ 和 $feat_t$ 进行 $element-eise$ 的相加, 其后果与 $A$ 进行 $element-wise$ 相乘。失去的后果将 ” 喂入 ” 下一层网络。

3. 试验后果如何?

  • 后果超过了传统共享单元的办法,与 SOTA 的相比,也达到了更好的后果。

4. 对咱们有什么指导意义?

  • 多任务学习中,Soft-Sharing 构造优于 Hard-Sharing 构造和 Vanilla 构造。
  • 空间信息对于行人属性辨认还是很重要的,对特色 $element-wize$ 相加操作可能不太有利用提取空间区域信息,然而 concat 操作应该还是有用的。

本文由博客群发一文多发等经营工具平台 OpenWrite 公布

正文完
 0