论文针对以后 anchor-free 指标检测算法的问题提出了 DDBNet,该算法对预测框进行更精确地评估,包含正负样本以及 IoU 的判断。DDBNet 的翻新点次要在于 box 合成和重组模块 (D&R) 和语义一致性模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标语义不统一问题。从试验来看,DDBNet 达到了 SOTA,整篇论文可圈可点,但外面的细节还须要等源码公开才晓得
起源:晓飞的算法工程笔记 公众号
论文: Dive Deeper Into Box for Object Detection
- 论文地址:https://arxiv.org/abs/2007.14350
Introduction
目前,越来越多的指标检测算法采纳 anchor-free 的策略,只管性能有肯定的晋升,但 anchor-free 办法仍然会有准确率束缚,次要因为以后 bbox 的回归办法。这里,论文列举了两个以后 anchor-free 办法存在的问题:
- 核心关键点与指标的语义不统一。在以后的 anchor-free 办法中,核心关键点是非常重要的,但如图 1 所示,指标对应的核心关键点区域更多的是无关的背景,这会不可避免地将噪声像素作为正样本。如果应用这种简略的策略来定义正样本像素,必定会导致显著的语义不统一,造成回归准确率降落。
- 部分特色的回归有局限性。因为卷积核的大小无限,每个核心关键点对应的无效感触域可能只笼罩了指标的局部信息,仅应用关键点进行 bbox 回归会造成性能的降落。如图 2 所示,虚线预测框为中心点预测的后果,每个框都是没有完满地对齐指标。
为了解决下面的两个问题,论文提出了新的指标检测算法 DDBNet,蕴含 box 合成 / 组合模块以及语义统一模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标的语义不统一问题,后果如图 2 中的实线框。论文的次要奉献如下:
- 基于 anchor-free 架构提出新的指标检测算法 DDBNet,可能很好地解决核心关键点的回归问题以及核心关键点的语义一致性。
- 验证了核心关键点和 GT 的语义一致性,可能帮忙晋升指标检测网络的收敛性。
- DDBNet 可能达到 SOTA 精度(45.5%),并且可能高效地拓展到其它 anchor-free 检测器中。
Our Approach
DDBNet 基于 FCOS 搭建,如图 3 所示,翻新点次要在于 box 合成和重组模块 (D&R, decomposition and recombination) 和语义一致性模块(semantic consistency):
- D&R 模块,合成多个预测框为多个边界,而后组合成新的预测框,综合原来的预测框进行精确的训练,这个模块在预测时去掉。
- 语义一致性模块,依据像素对应的分类分数以及外在重要性,自适应地将其归为正样本像素和副样本像素。
Box Decomposition and Recombination
给定指标 $I$,$I$ 中的每个像素 $i$ 都回归一个预测框 $p_i=\\{l_i, t_i, r_i, b_i\\}$,预测框的合集为 $B_{I}=\\{p_0, p_1, \\cdots, p_n\\}$,4 个元素别离为点到右边、上边、左边和下边的间隔。惯例状况下,IoU 回归损失定义为:
$N_{pos}$ 为所有指标区域的像素数量,$p^{*}_{I}$ 为回归指标,而 D &R 模块的目标是通过 IoU 损失进行优化,预测更精确的 $p_i$。
如图 4 所示,D&R 模块基于 IoU,蕴含四个步骤:
- Decomposition:将预测框 $p_i$ 合成为边界 $l_i, t_i, r_i, b_i$,而后将 $p_i$ 与 $p^{*}_{I}$ 的 IoU $s_i$ 赋予各边界。对于指标 $I$,边界的置信度示意为 $N\\times 4$ 矩阵 $S_{I}$,而后依据边界的类型组合成 4 个合集 $left_{I}=\\{l_0, l_1, \\cdots, l_n\\}$,$right_{I}=\\{r_0, r_1, \\cdots, r_n\\}$,$bottom_{I}=\\{b_0, b_1, \\cdots, b_n\\}$,$top_{I}=\\{t_0, t_1, \\cdots, t_n\\}$
- Ranking:最优的预测框应该有最小的 IoU 损失,遍历指标 $I$ 的所有预测边界的组合来组合最优的预测框 $B^{‘}_{I}$ 是个不错的抉择,但间接遍历会带来微小的计算复杂度 $\\mathcal{O}(n^4)$。为了防止带来过大的计算量,论文提出了先对边界进行高效的排序。对于 $I$ 的每个边界汇合,首先计算其与 GT 边界 $p^{*}_I=\\{l_I, r_I, b_I, t_I\\}$ 的偏差 $\\delta^{l}_{I}$, $\\delta^{r}_{I}$, $\\delta^{b}_{I}$, $\\delta^{t}_{I}$,而后依据其偏差值进行排序,与 GT 更靠近的边界取得更高的排名。
- Recombination:将不同汇合中排名雷同的边界组合成新预测框合集 $B^{‘}_{I}=\\{p^{‘}_0, p^{‘}_1, \\cdots, p^{‘}_n\\}$,而后将新预测框 $p^{‘}_i$ 与 GT $p^{*}_{I}$ 的 IoU 赋予对应的边界,形成新的 $N\\times 4$ 矩阵 $S^{‘}_{I}$。
- Assignment:通过下面的步骤,失去了两组边界得分 $S_{I}$ 和 $S^{‘}_{I}$,每个边界的最终得分为两者中的较大值。上述的调配策略间接取 $S^{‘}_{I}$,次要思考了以下状况:排位较低的边界组成的新预测框个别都与 GT 差别较大,其新分数 $s^{‘}_i$ 也会远低于原分数 $s_i$,这种重大的分数偏差在训练阶段会导致回传梯度不稳固。
在模型训练时,通过 IoU 损失进行边界预测的优化,损失函数蕴含两局部:
对于指标 $I$,每条边用其较高的分数进行回传梯度的计算,这里看完会有点疑难,例如 $S^{‘}_I > S_{I}$ 是怎么比照的,原预测框的边界可能组合成了不同的新预测框。绝对于原来的公式 1,公式 2 则是以指标的角度进行优化(instance-wise fashion),综合思考指标相干的 box,也就是思考了指标的上下文信息,而公式 1 是以 box 的角度进行优化(local-wise fashion),仅思考每个 box 的部分信息。
Semantic Consistency Module
D&R 模块的性能取决于应用了指标中的哪些像素作为正样本,目前的办法大都间接抉择固定的核心区域像素作为正样本,而论文提出了自适应的语义一致性判断办法,可能帮忙网络学习精确的像素标签空间,可公式化为:
$R_I$ 为指标 $I$ 的像素对应的预测框与 GT 的 IoU 分数合集,$\\overline{R_I}$ 为 $R_I$ 的均匀 IoU 分数,$\\overline{R_{I\\downarrow}}$ 为低于均匀 IoU 分数的像素,$\\overline{R_{I\\uparrow}}$ 为高于均匀 IoU 分数的像素。$c_i \\in C_I$ 为 $i$ 像素中分数最高的类别,$g$ 为总类别数,$\\overline{C_I\\downarrow}$ 为低于均匀分类分数像素,$\\overline{C_I\\uparrow}$ 为低于均匀分类分数像素,这里的判断是类不可知的。
依据公式 3 将像素归为正负样本,如图 5 所示,如果一个像素可归于多个指标,个别抉择最小的指标。在主动地依据语义一致性对像素进行标签后,论文将每个正样本像素的外在重要性 (inner significance) 退出到网络训练中,用来晋升语义一致性的学习,相似于 FCOS 的 centerness。外在重要性由像素预测框与 GT 的 IoU 进行掂量,在网络中增加一个额定的语义一致性分支进行预测与学习,损失函数定义为:
$r_i$ 为预测后果。至此,DDBNet 的残缺损失函数定义为:
Experiments
在 COCO 数据集上与其它办法进行比照。
两个模块的比照试验。
CONCLUSION
论文针对以后 anchor-free 指标检测算法的问题提出了 DDBNet,该算法对预测框进行更精确地评估,包含正负样本以及 IoU 的判断。DDBNet 的翻新点次要在于 box 合成和重组模块 (D&R) 和语义一致性模块,别离用于解决核心关键点的回归不准问题以及核心关键点与指标语义不统一问题。从试验来看,DDBNet 达到了 SOTA,整篇论文可圈可点,但外面的细节还须要等源码公开才晓得。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】