共计 2269 个字符,预计需要花费 6 分钟才能阅读完成。
ExtremeNet 检测指标的四个极点,而后以几何的形式将其组合起来进行指标检测,性能与其它传统模式的检测算法相当。ExtremeNet 的检测办法非常独特,然而蕴含了较多的后处理办法,所以有很大的改良空间,感兴趣能够去看看论文试验中的谬误剖析局部
起源:晓飞的算法工程笔记 公众号
论文: Bottom-up Object Detection by Grouping Extreme and Center Points
- 论文地址:https://arxiv.org/abs/1901.08043
- 论文代码:https://github.com/xingyizhou/ExtremeNet
Introduction
在指标检测中,罕用的办法将指标定义为矩形框,这通常会带来大量障碍检测的背景信息。为此,论文提出 ExtremeNet,通过检测指标的四个极点进行指标定位,如图 1 所示。整体算法基于 CornerNet 的思维进行改良,应用五张热图别离预测指标的四个极点以及核心区域,将不同热图的极点进行组合,通过组合的几何核心在中心点热图上的值判断组合是否符合要求。另外,ExtremeNet 检测的极点可能配合 DEXTR 网络进行指标宰割信息的预测。
ExtremeNet for Object detection
ExtremeNet 应用 HourglassNet 进行类可知的关键点检测,遵循 CornerNet 的训练步骤、损失函数和偏移值预测,其中偏移值的预测是类不可知的,中心点不蕴含偏移值。骨干网络共输入 $5\times C$ 张热图,$4\times 2$ 偏移值特色图,$C$ 为类别数,整体构造和输入如图 3 所示。当极点提取后,依据几何关系将他们进行组合。
Center Grouping
极点位于指标的不同方向,组合时会十分复杂,论文认为像 CornerNet 那样采纳 embedding 向量进行组合会不足全局信息,所以提出了 Center Grouping 进行极点组合。
Center Grouping 的流程如算法 1 所示,首先获取四个极点热图上的顶峰点,顶峰点需满足两点:1) 其值需大于阈值 $\tau_p$ 2) 为部分最大值,顶峰点的值需大于四周八个点,获取顶峰点的过程称为 ExtrectPeak。在失去各个热图上的顶峰点后,遍历各顶峰点的组合,对于满足几何关系的顶峰点组合($t$,$b$,$r$,$l$),计算其几何中心点 $c=(\frac{l_x+t_x}{2}, \frac{t_y+b_y}{2})$,如果几何中心点的值满足 $\hat{Y}^{(c)}_{c_x, c_y} \ge \tau_c$,则认为该顶峰点组合符合要求。
Ghost box suppression
在三个大小雷同的指标等距散布的状况下,Center Grouping 可能会呈现高置信度的误判。此时,两头的指标可能有两种状况,一是正确的预测,二是谬误地与隔壁的物体合并输入,论文称第二种状况的预测框为 ghost 框。为了解决这种状况,论文减少了 soft-NMS 后处理办法,如果某个预测框的内蕴含的预测框的置信度之和大于其三倍,则将其置信度除以二,而后再进行 NMS 操作。
Edge aggregation
极点有时不是惟一的,如果指标存在程度或垂直的边界,则边上所有的点都是极点,而网络对这种边界上的点的预测值会较小,可能导致极点的漏检。
论文采纳边聚合 (edge aggregation) 来解决这个场景,对于左右热图的部分最大点,在垂直方向进行分数聚合,而高低热图的部分最大点则在程度方向进行分数聚合。将对应方向上的枯燥递加分数进行聚合,直到遇到聚合方向上的部分最小点为止。假如 $m$ 为部分最大值点,$N^{(m)}_i=\hat{Y}_{m_x+i, m_y}$ 为程度方向的点,定义 $i_0 < 0$ 和 $0<i_1$ 为两边最近的部分最小值,即 $N^{(m)}_{i_0-1} > N^{(m)}_{i_0}$ 和 $N^{(m)}_{i_1} < N^{(m)}_{i_1+1}$,则边聚合的顶峰点值更新为 $\tilde{Y}_m=\hat{Y}_m+\lambda_{aggr}{\sum}^{i_1}_{i=i_0}N^{(m)}_i$,其中 $\lambda_{aggr}$ 为聚合权重,设置为 0.1,整体成果如图 4。
Extreme Instance Segmentation
极点比 bbox 蕴含更多的指标信息,毕竟多了两倍的标注信息 (8 vs 4)。基于四个极点和 bbox,论文提出简略的办法来获取指标的 mask 信息,首先以极点为核心扩大出 1 /4 bbox 边界长度的线,如果线超过 bbox 则截断,而后将四条线首尾连贯失去八边形,如图 1 所示。最初应用 DEXTR(Deep Extreme Cut) 办法进一步获取 mask 信息,DEXTR 网络可能将极点信息转化成宰割信息,这里间接将八边形截图输出到预训练的 DEXTR 网络中。
Experiments
各模块的比照试验,另外论文对 ExtremeNet 进行了谬误剖析,将各模块的输入替换为 GT,最终能达到到 86.0AP。
与其它 SOTA 办法进行比照。
实例宰割成果。
Conclusion
ExtremeNet 检测指标的四个极点,而后以几何的形式将其组合起来进行指标检测,性能与其它传统模式的检测算法相当。ExtremeNet 的检测办法非常独特,然而蕴含了较多的后处理办法,所以有很大的改良空间,感兴趣能够去看看论文试验中的谬误剖析局部。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】