论文基于NLP的注意力机制提出了指标关系模块，通过与其它指标的比对加强以后指标的特色，而且还能够代替NMS进行端到端的反复后果去除，思维非常新鲜，成果也不错

起源：晓飞的算法工程笔记公众号

论文: Relation Networks for Object Detection

论文地址：https://arxiv.org/abs/1711.11575
论文代码：https://github.com/msracver/Relation-Networks-for-Object-Detection

Introduction

以后大多数指标检测算法仍专一于独自辨认指标，没有尝试在训练时开掘指标之间的关系，受限于以后简略的网络结构，无奈对无规律的指标关系进行建模。参考自然语言解决中的注意力机制，论文提出了用于指标检测的自适应注意力机制 — 指标关系模块(object relation module)，学习指标间的关系来加强特色以及去除反复后果。
检测指标有2D空间散布和不同的长宽比，比文本的场景要简单些，所以论文拓展了NLP的注意力权重，分为两个权重：

基于指标特色产生的权重，跟NLP权重相似。
基于指标绝对几何地位产生的权重，绝对几何地位保障平移不变性。

指标关系模块接管可变输出并行计算，是可微的in-place操作，可作为根底构建block嵌入到任意指标检测算法中，嵌入形式如图1所示，用于指标辨认局部以及反复指标去除：

指标辨认局部(instance recognition)：利用指标关系模块，联结所有的检测指标来进行特色加强，再进行后续的辨认。
反复指标去除(du-plicate remova)：在辨认实现后，惯例的做法应用NMS进行反复指标的去除，而论文应用轻量级网关系网络进行该做法的替换。

Object Relation Module

惯例的注意力机制为ScaledDot-Product Attention，计算为：

给定查问指标$q$，计算与其它指标$K$的类似度，而后softmax归一化为权重，最初乘以各向量的值$V$失去加权后的特色，这3个值个别都是对指标特色进行embedding失去的。
对于指标检测中的相似性计算，每个指标蕴含几何特色$f_G$和外观特色$f_A$，给定$N$个指标$\{(f^n_A, f^n_G)\}^N_{n=1}$，可计算每个指标绝对于其它指标的关系特色(relation feature)$f_R(n)$：

关系特色理论为所有指标的外观特色的加权和，$W_V$为线性变动，相当于将外观特色embedding为公式1的值$V$。权值$w^{mn}$表明其它指标绝对于以后指标的重要性，计算方法为：

公式3实际上等同于公式1中的softmax，惟一不同的是除了外观权值$w^{mn}_A$，还额定应用几何权值$w^{mn}_G$进行加权。
外观权值$w^{mn}_A$的计算跟公式1的softmax括号内的计算一样，具体为：

$W_K$和$W_Q$同样为线性变动，别离将比照指标和以后指标的外观特色embedding成公式1的$K$和$Q$，embedding后的特色维度为$d_k$。
几何权值$w^{mn}_G$的计算为：

几何特色个别就是简略的四维bbox，所以公式5在计算几何权值蕴含两个步骤：

将以后指标和比照指标的几何特色通过$\varepsilon_G$embedding成高维特色，为了保障平移和尺寸不变性，几何特色转为相对值$(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}) )$，embedding办法跟Attention Is All You Need里的地位编码一样，应用正弦函数和余弦函数。
应用$W_G$将高维几何特色转换为标量权值，小于0时设为0。

论文在几何特色的应用上也尝试了其它办法：1) none，间接将$w^{mn}_G$设为1.0计算权值，即不应用。 2) unary，将高维几何特色间接与外观特色交融，而后跟none一样计算权值。试验局部的表1有相干的后果比照，论文抉择的公式5加权办法比拟无效。

在实现时，相似于multi-head attention，一个指标关系模块(object relation module)蕴含$N_r$个关系特色，每个特色的维度为输出特色$f^m_A$的$\frac{1}{N_r}$，图2可能会有一点问题，几何特色写了两个，然而外观特色只写了一个，大家依据公式了解就好，最初通过相加对输出指标的外观特色进行加强：

指标关系模块的计算逻辑如算法1所示，其空间复杂度和工夫复杂度为：

一般而言，指标关系模块的整体计算量不会很大，而且输入特色的维度和输出特色的维度统一，可作为根底构建block嵌入到任何网络中。

Relation Networks For Object Detection

论文次要探讨将指标关系模块嵌入到region-based指标检测网络中，region-based指标检测网络个别蕴含四个步骤：1) 通过骨干网络生成整图特色 2) 生成候选框的区域特色 3) 进行各实例辨认和调整 4) 去除反复的检测后果，指标关系模块的嵌入次要在步骤3和步骤4。

Relation for Instance Recognition

指标分类和指标回归个别应用两个1024维全连贯层对指标的RoI池化特色进行解决：

指标关系模块可间接加强所有指标的1024维，不扭转特色的维度，不仅能够在任意地位插入，还能够屡次重叠：

$r_1$和$r_2$为指标关系模块反复的次数，增加指标关系模块可能指标特色，进步辨认的准确率，公式10的可视化如图a所示。

Relation for Duplicate Removal

去除反复指标这个工作自身就须要穷尽指标间的关系，比方启发式的NMS，高分指标可抹去其左近的低分指标。只管NMS非常简略，但其去重的形式并不总是最优的，为此，论文采纳指标关系模块去除反复指标。

如图b所示，输出指标的分数、1024维外观特色以及几何特色，反复指标去除蕴含以下几个步骤：

对指标分数进行名次的转换，采纳几何特色的embedding形式将分数转换成128维特色，将外观特色降维为128维特色，将两个特色相加。
跟后面形容的指标关系模块一样与其它指标计算，输入关系特色。
通过线性变动$W_s$和sigmoid函数输入概率$s_1\in [0, 1]$，对原分数进行加权。
分数高于阈值的即为最终的后果。

在训练时间接对最终的分数应用穿插熵损失迭代，尽管大部分的指标都是反复的，但因为其最终分数都很小，所以不会对网络造成很大的偏差。而在推理时，先按分类的分数过滤一轮，这样能加重计算量，论文实测大概减少2ms，绝对的，NMS和SoftNMS减少5ms左右。

Experiments

各地位设置的比照试验。

反复指标去重成果比照。

在各网络中的成果比照，别离比照2fc+SoftNMS、2fc+RM+SoftNMS和2fc+RM+e2e的成果。

Conclusion

论文基于NLP的注意力机制提出了指标关系模块，通过与其它指标的比对加强以后指标的特色，而且还能够代替NMS进行端到端的反复后果去除，思维非常新鲜，成果也不错。

如果本文对你有帮忙，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

关于算法:RelationNet学习目标间关系来增强特征以及去除NMS-CVPR-2018

Introduction

Object Relation Module

Relation Networks For Object Detection

Relation for Instance Recognition

Relation for Duplicate Removal

Experiments

Conclusion

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:RelationNet学习目标间关系来增强特征以及去除NMS-CVPR-2018

Introduction

Object Relation Module

Relation Networks For Object Detection

Relation for Instance Recognition

Relation for Duplicate Removal

Experiments

Conclusion

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复