论文提出用于特色金字塔的高效特色交互办法FPT，蕴含3种精心设计的特色加强操作，别离用于借鉴层内特色进行加强、借鉴高层特色进行加强以及借鉴低层特色进行加强，FPT的输入维度与输出统一，可能自在嵌入到各种蕴含特色金字塔的检测算法中，从试验后果来看，成果不错

起源：晓飞的算法工程笔记公众号

论文: Feature Pyramid Transformer

论文地址：https://arxiv.org/abs/2007.09451
论文代码：https://github.com/ZHANGDONG-NJUST/FPT

Introduction

讲论文前先捋一下CNN网络结构相干的常识，论文的思维次要来自两个，一个是特色金字塔构造，一个是Non-local网络：

首先是特色金字塔，如图1a，CNN网络以层级构造的模式逐层提取更丰盛的特色，而后应用最初的特色层进行预测。但对于一些小物体而言，最初一层的特色图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测，人们提出图1b的金字塔特色，大物体应用高层的粗粒度特色，小物体应用底层的细粒度特色。对于一些pixel-level工作，比方语义宰割，须要综合不同层的上下文信息进行粗疏的预测，所以就须要图1c的预测构造。
其次是Non-local network，该网络借鉴了NLP模型的Self-attention思维，如图1d所示，可能借鉴特色图上的其它特色点来对以后特色点进行加强。

基于下面两个思维，论文提出了FPT(Feature Pyramid Transformer)，构造如图1e所示，外围在特色金字塔上进行相似Non-local的特色加强，而后再应用多层特色进行预测。FPT设计了3种特色加强操作，也是论文的次要奉献：

ST(Self-Transformer)：跟non-local操作一样在对以后层进行特色加强。
GT(Grounding Transformer)：这是top-down模式的non-local操作，将高层特色(尺寸小的)别离用于低层特色的加强。
RT(Rendering Transformer)：这是bottom-up模式的non-local操作，将低层特色(尺寸大的)别离用于高层特色的加强。

Feature Pyramid Transformer

FPT的特色转换流程如图2所示，输出为金字塔特色，首先对每层特色别离进行ST、GT、RT特色加强失去多个加强后的特色，而后对加强的特色按尺寸进行排序，将雷同大小的特色concate到一起，通过卷积将加强后的特色维度复原到输出时的雷同维度。

Non-Local Interaction Revisited

因为论文提出的特色加强操作与non-local操作有很大关系，这里须要先介绍下non-local的思维。惯例non-local操作的输出为单特色图$X$上的queries(Q), keys(K)和values(V)，输入与$X$尺寸雷同的加强特色$\hat{X}$：

$q_i=f_q(X_i)\in Q$，$k_j=f_k(X_j)\in K$，$v_j=f_v(X_j)\in V$，$f_q(\cdot)$、$f_k(\cdot)$和$f_v(\cdot)$为对应的线性变换，$X_i$和$X_j$为特色图$X$上的第$i^{th}$和$j^{th}$地位上的特色，$F_{sim}$为类似度函数，默认为点积，$F_{nom}$为归一化函数，默认为softmax，$F_{mul}$为权重集成函数，默认为矩阵相乘，$\hat{X}_i$为输入特色图$\hat{X}$的第$i^{th}$地位上的特色。

Self-Transformer

ST为改进版non-local操作，如图1a所示，次要有两点不同：

将$q_i$和$k_j$分为$\mathcal{N}$局部，而后计算每局部的每组$q_{i,n}$和$k_{j,n}$类似度分数$s^n_{i,j}$
类似度计算应用改良的MoS(Mixture of Softmaxes)函数$F_{mos}$：

$\pi_n=Softmax(w^T_n \overline{k})$为特色集成时的权重，$w_n$为可学习的线性变换，$\overline{k}$为所有$k_j$的均值。

基于上述的改良，ST定义为：

Grounding Transformer

GT是top-down模式的non-local操作，如图2c所示，借用高层的粗粒度特色$X^c$来加强低层的细粒度特色$X^f$。在计算时，类似度计算由点积替换为更高效的欧氏间隔$F_{eud}$：

$q_i=f_q(X^f_i)$，$k_j=f_k(X^c_j)$。GT跟ST一样将$q_i$和$k_j$分为$\mathcal{N}$局部，残缺的定义为：

在特色金字塔中，高下层特色别离蕴含图片的全局和部分信息，而对于语义宰割工作，不须要关注过多高层的全局信息，更多的是须要query地位左近的上下文信息，所以图3b的跨层卷积对语义宰割工作非常无效。因为GT操作是全局计算，所以论文提出了部分束缚(Locality-constrained)的GT操作LGT，如图3c所示，每个$q_i$只与高层部分区域的$k_j$和$v_j$进行计算。高层部分区域以$q_i$对应的地位为核心，边长(square size)为固定值。如果高层的部分区域越出了特色图，则应用0代替。

Rendering Transformer

与GT相同，RT是bottom-up模式的non-local操作，借用低层的细粒度特色来加强高层的粗粒度特色。RT也是部分束缚(Locality-constrained)的，以channel-wise进行计算的，定义高层特色为$Q$，低层特色为$K$和$V$，计算步骤蕴含如下：

对$K$和进行全局均匀池化失去权重$w$。
使用权重$w$对$Q$进行加权失去$Q_{att}$。
对$V$进行带stride的$3\times 3$卷积下采样失去$V_{dow}$。
应用$3\times 3$卷积对$Q_{att}$进行调整，并与$V_{dow}$相加，再过一层$3\times 3$卷积后输入。

残缺RT的定义为：

$F_{att}(\cdot)$为外积函数，$F_{scov}(\cdot)$为带stride的$3\times 3$卷积，$F_{conv}(\cdot)$为用于调整的$3\times 3$卷积，$F_{add}(\cdot)$为蕴含$3\times 3$卷积的特色相加函数。

Experiments

在COCO上与其它算法的比照试验。

在多个数据集上的进行语义宰割性能比照。

Conclusion

论文提出用于特色金字塔的高效特色交互办法FPT，蕴含3种精心设计的特色加强操作，别离用于借鉴层内特色进行加强、借鉴高层特色进行加强以及借鉴低层特色进行加强，FPT的输入维度与输出统一，可能自在嵌入到各种蕴含特色金字塔的检测算法中，从试验后果来看，成果不错。

如果本文对你有帮忙，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

关于算法:FPT又是借鉴Transformer这次多方向融合特征金字塔-ECCV-2020

Introduction

Feature Pyramid Transformer

Non-Local Interaction Revisited

Self-Transformer

Grounding Transformer

Rendering Transformer

Experiments

Conclusion

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:FPT又是借鉴Transformer这次多方向融合特征金字塔-ECCV-2020

Introduction

Feature Pyramid Transformer

Non-Local Interaction Revisited

Self-Transformer

Grounding Transformer

Rendering Transformer

Experiments

Conclusion

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复