论文针对以后anchor-free指标检测算法的问题提出了DDBNet,该算法对预测框进行更精确地评估,包含正负样本以及IoU的判断。DDBNet的翻新点次要在于box合成和重组模块(D&R)和语义一致性模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标语义不统一问题。从试验来看,DDBNet达到了SOTA,整篇论文可圈可点,但外面的细节还须要等源码公开才晓得

起源:晓飞的算法工程笔记 公众号

论文: Dive Deeper Into Box for Object Detection

  • 论文地址:https://arxiv.org/abs/2007.14350

Introduction


  目前,越来越多的指标检测算法采纳anchor-free的策略,只管性能有肯定的晋升,但anchor-free办法仍然会有准确率束缚,次要因为以后bbox的回归办法。这里,论文列举了两个以后anchor-free办法存在的问题:

  • 核心关键点与指标的语义不统一。在以后的anchor-free办法中,核心关键点是非常重要的,但如图1所示,指标对应的核心关键点区域更多的是无关的背景,这会不可避免地将噪声像素作为正样本。如果应用这种简略的策略来定义正样本像素,必定会导致显著的语义不统一,造成回归准确率降落。

  • 部分特色的回归有局限性。因为卷积核的大小无限,每个核心关键点对应的无效感触域可能只笼罩了指标的局部信息,仅应用关键点进行bbox回归会造成性能的降落。如图2所示,虚线预测框为中心点预测的后果,每个框都是没有完满地对齐指标。

  为了解决下面的两个问题,论文提出了新的指标检测算法DDBNet,蕴含box合成/组合模块以及语义统一模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标的语义不统一问题,后果如图2中的实线框。论文的次要奉献如下:

  • 基于anchor-free架构提出新的指标检测算法DDBNet,可能很好地解决核心关键点的回归问题以及核心关键点的语义一致性。
  • 验证了核心关键点和GT的语义一致性,可能帮忙晋升指标检测网络的收敛性。
  • DDBNet可能达到SOTA精度(45.5%),并且可能高效地拓展到其它anchor-free检测器中。

Our Approach


  DDBNet基于FCOS搭建,如图3所示,翻新点次要在于box合成和重组模块(D&R, decomposition and recombination)和语义一致性模块(semantic consistency):

  • D&R模块,合成多个预测框为多个边界,而后组合成新的预测框,综合原来的预测框进行精确的训练,这个模块在预测时去掉。
  • 语义一致性模块,依据像素对应的分类分数以及外在重要性,自适应地将其归为正样本像素和副样本像素。

Box Decomposition and Recombination

  给定指标$I$,$I$中的每个像素$i$都回归一个预测框$p_i=\\{l_i, t_i, r_i, b_i\\}$,预测框的合集为$B_{I}=\\{p_0, p_1, \\cdots, p_n\\}$,4个元素别离为点到右边、上边、左边和下边的间隔。惯例状况下,IoU回归损失定义为:

  $N_{pos}$为所有指标区域的像素数量,$p^{*}_{I}$为回归指标,而D&R模块的目标是通过IoU损失进行优化,预测更精确的$p_i$。

  如图4所示,D&R模块基于IoU,蕴含四个步骤:

  • Decomposition:将预测框$p_i$合成为边界$l_i, t_i, r_i, b_i$,而后将$p_i$与$p^{*}_{I}$的IoU $s_i$赋予各边界。对于指标$I$,边界的置信度示意为$N\\times 4$矩阵$S_{I}$,而后依据边界的类型组合成4个合集$left_{I}=\\{l_0, l_1, \\cdots, l_n\\}$,$right_{I}=\\{r_0, r_1, \\cdots, r_n\\}$,$bottom_{I}=\\{b_0, b_1, \\cdots, b_n\\}$,$top_{I}=\\{t_0, t_1, \\cdots, t_n\\}$
  • Ranking:最优的预测框应该有最小的IoU损失,遍历指标$I$的所有预测边界的组合来组合最优的预测框$B^{'}_{I}$是个不错的抉择,但间接遍历会带来微小的计算复杂度$\\mathcal{O}(n^4)$。为了防止带来过大的计算量,论文提出了先对边界进行高效的排序。对于$I$的每个边界汇合,首先计算其与GT边界$p^{*}_I=\\{ l_I, r_I, b_I, t_I\\}$的偏差$\\delta^{l}_{I}$, $\\delta^{r}_{I}$, $\\delta^{b}_{I}$, $\\delta^{t}_{I}$,而后依据其偏差值进行排序,与GT更靠近的边界取得更高的排名。
  • Recombination:将不同汇合中排名雷同的边界组合成新预测框合集$B^{'}_{I}=\\{p^{'}_0, p^{'}_1, \\cdots, p^{'}_n\\}$,而后将新预测框$p^{'}_i$与GT $p^{*}_{I}$的IoU赋予对应的边界,形成新的$N\\times 4$矩阵$S^{'}_{I}$。
  • Assignment:通过下面的步骤,失去了两组边界得分$S_{I}$和$S^{'}_{I}$,每个边界的最终得分为两者中的较大值。上述的调配策略间接取$S^{'}_{I}$,次要思考了以下状况:排位较低的边界组成的新预测框个别都与GT差别较大,其新分数$s^{'}_i$也会远低于原分数$s_i$,这种重大的分数偏差在训练阶段会导致回传梯度不稳固。

  在模型训练时,通过IoU损失进行边界预测的优化,损失函数蕴含两局部:

  对于指标$I$,每条边用其较高的分数进行回传梯度的计算,这里看完会有点疑难,例如$S^{'}_I > S_{I}$是怎么比照的,原预测框的边界可能组合成了不同的新预测框。绝对于原来的公式1,公式2则是以指标的角度进行优化(instance-wise fashion),综合思考指标相干的box,也就是思考了指标的上下文信息,而公式1是以box的角度进行优化(local-wise fashion),仅思考每个box的部分信息。

Semantic Consistency Module

  D&R模块的性能取决于应用了指标中的哪些像素作为正样本,目前的办法大都间接抉择固定的核心区域像素作为正样本,而论文提出了自适应的语义一致性判断办法,可能帮忙网络学习精确的像素标签空间,可公式化为:

  $R_I$为指标$I$的像素对应的预测框与GT的IoU分数合集,$\\overline{R_I}$为$R_I$的均匀IoU分数,$\\overline{R_{I\\downarrow}}$为低于均匀IoU分数的像素,$\\overline{R_{I\\uparrow}}$为高于均匀IoU分数的像素。$c_i \\in C_I$为$i$像素中分数最高的类别,$g$为总类别数,$\\overline{C_I\\downarrow}$为低于均匀分类分数像素,$\\overline{C_I\\uparrow}$为低于均匀分类分数像素,这里的判断是类不可知的。

  依据公式3将像素归为正负样本,如图5所示,如果一个像素可归于多个指标,个别抉择最小的指标。在主动地依据语义一致性对像素进行标签后,论文将每个正样本像素的外在重要性(inner significance)退出到网络训练中,用来晋升语义一致性的学习,相似于FCOS的centerness。外在重要性由像素预测框与GT的IoU进行掂量,在网络中增加一个额定的语义一致性分支进行预测与学习,损失函数定义为:

  $r_i$为预测后果。至此,DDBNet的残缺损失函数定义为:

Experiments


  在COCO数据集上与其它办法进行比照。

  两个模块的比照试验。

CONCLUSION


  论文针对以后anchor-free指标检测算法的问题提出了DDBNet,该算法对预测框进行更精确地评估,包含正负样本以及IoU的判断。DDBNet的翻新点次要在于box合成和重组模块(D&R)和语义一致性模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标语义不统一问题。从试验来看,DDBNet达到了SOTA,整篇论文可圈可点,但外面的细节还须要等源码公开才晓得。



如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】