摘要:本文解读了《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》,该论文针对指标检测工作,提出了新的高斯检测框(GBB),及新的计算指标相似性的办法(ProbIoU)。

本文分享自华为云社区《论文解读系列十九:用于指标检测的高斯检测框与ProbIoU》,作者:BigDragon。

论文地址: https://arxiv.org/abs/2106.06072

Github地址: https://github.com/ProbIOU

现有指标检测的改良方向次要集中在:训练更大数据集 (LVIS dataset)、解决类别不平衡、提出更好的 backbones 、建设长距离相互作用模型 (Transformers , LambdaNetworks)、分类和检测框的衡量剖析,对于检测框的出现模式相干钻研较少。现有指标检测工作中以程度框 (HBB )和旋转框 (OBB )为主,出现模式还是矩形或者类矩形。 而现有指标间隔及相似性计算形式包含:IoU (Intersection over Union)、 GIoU (Generalized IoU )、 DIoU (Distance IoU)、 PIoU (Pixel IoU), Gaussian Wasserstein Distance (GWD)。

现有OBB算法在修长及旋转物体检测问题绝对于HBB算法有所提高,然而与指标语义宰割的贴合度不高,因而,本文提出更加贴合语义宰割模式的宰割出现模式及对应的指标类似度计算方法。

该论文奉献如下:

  • 提出一种新的椭圆形指标检测框 (Gaussian Bounding Boxes,GBB)

GBB与指标的语义宰割mask形态更加靠近,更加贴合非矩形指标,在非矩形指标检测成果优于HBB和OBB。

  • 提出一种新的指标类似度的计算方法 (Probabilistic IoU,ProbIoU)

基于Hellinger Distance的ProbIoU,思考了2D高斯分布的特点,满足所有间隔度量规范,可能示意不同散布间的实在间隔,且处处可微,能晋升OBB和HBB指标检测成果。

1.Gaussian Bounding Boxes (GBB)

为在 2 维区域确定一个二维高斯分布,须要计算其均值和协方差矩阵∑,其中为 (x0, y0) T,协方差矩阵∑可通过下列公式进行计算。在指标检测工作中,可间接设置(x0,y0,a,b,c )作为指标检测中的回归工作中的参数,也可将回归工作中参数示意为(x0, y0,a ’,b ’, ),而后者的模式更加合乎现有旋转检测框的输入模式。

假如

程度框及旋转框向高斯框转换中遵循以下假如:指标区域为 2 维二元区域 ,且 合乎平均概率分布,则该散布的均值 和协方差矩阵 ∑ 可通过如下公式进行计算。

其中, N 示意区域 的面积。

1.1 将 HBB 转化为 GBB

对于 HBB ,其二元区域 为以 (x0, y0) 为核心,高为 H,宽为 W 的矩形区域 , 因而 为 (x0, y0) , 它的协方差矩阵 可通过如下公式进行计算

因而,能够得出 a=w²/ 12 , b =H²/12,c=0 。如上述公式所示,转换后的高斯框也能够转化程度框,该过程是可逆的。

1.2 将 OBB 转化为 GBB

OBB 转化为 GBB 须要计算 (a ’,b ’,),如下图所示,方差 a ’和b ’ 可通过将旋转框转化为程度框进行计算, 其协方差矩阵可通过下列公式进行计算。

1.3 多边形框 (PBB) 转化为 GBB

多边形框转化为高斯框,可按下列公式进行计算:

2. ProbIoU 及定位损失函数

2.1 ProbIoU

Bhattacharyya Distance (BD)

为计算不同 GBB 间的类似度,本文首先采纳了 Bhattacharyya Coefficient(BC);两个概率密度函数 p(x)和 q(x) 间的 BC 按下列公式进行计算:

其中 BC (p,q ) ∈ [0,1], 当且仅当两个散布雷同时,BC (p,q)=1 。

基于上述 BC ( p,q ),能够失去不同 散布间的巴氏间隔 (Bhattacharyya Distance, BD), 两个概率密度函数p(x)和q(x) 间的BD按下列公式进行计算:

当 p ~N (1,1), q~N (2, 2 ) 且指标检测中理论问题为2维向量及矩阵,巴氏间隔 BD 可通过如下公式进行计算:



Hellinger Distance (HD)

因为 Bhattacharyya Distance 不满足三角不等式,所以它并不是实在的间隔,因而,为示意实在间隔,采纳 Hellinger Distance (HD) ,其公式如下:

其中 HD (p,q) ∈ [0,1],当且仅当两个散布雷同时, HD(p,q)=0 。

Probabilistic IoU (ProbIoU)

基于上述 Hellinger Distance , 本文提出高斯分布相似性计算方法 ProbIoU ,其具体计算公式如下:

2.2 定位损失函数

假如预测 GBB 为 p= (x1,y1,a1,b1,c1 ),实在 GBB 为 p=(x2,y2,a2,b2,c2 ),则其损失函数如下所示:

然而,当预测 GBB 远离实在 GBB 间隔时, L1 损失函数的值靠近于 1 ,训练过程产生梯度小且收敛速度慢。 L2 损失函数防止了上述问题,但与 IoU 的几何关系弱,因而,倡议首先采纳 L2 损失函数训练,而后切换至 L1 损失函数。

2.3 ProbIoU 的个性

基于 Hellinger Distance 的 ProbIoU 具备以下个性:

  • 三个函数中所有参数都是可微的;
  • Helinger Distance 满足所有间隔度量规范 ;
  • 损失函数对对象缩放是不变的。

3. 试验后果

3.1 不同检测框 试验后果

在 COCO2017 上进行训练, 通过比照 GBB 、OBB 、HBB 检测失去的 IoU,可失去如下论断:

  • GBB 在 COCO 2017 中 77 类别的均值 IoU 要高于 HBB 和 OBB
  • GBB 在 traffic light 、 microwave 、 tv 三个类别要差于 HBB 和 OBB

3.2 ProbIoU loss 对于 HBB 、 OBB 检测的晋升

将基于 ProbIoU 的损失函数用于 HBB 检测工作中, 别离采纳 EfficientDet D0 和 SSD 300 在 PASCAL-VOC 2007 数据集训练。如下表所示, 绝对于 IoU , 采纳 ProbIoU 办法 在 AP 及 AP75 均有晋升,采纳基于 ProbIoU 的损失函数的模型均能达到较高 AP 。

将基于 ProbIoU 的损失函数用于OBB 检测工作中, 别离采纳 R-50 Retinanet 及 R-50 R3Det ,在 DOTA v1 及 HRSC2016 数据集进行训练。如下表所示,在 DOTA V1 数据集,采纳 Retinanet 模型时,基于 ProbIoU 的 损失函数 AP 比 GWP-ret 高 2%;采纳 R3Det 模型时, 其后果与GWD-rep 和GWD-ret 靠近。在 HRSC2016 数据集上,基于 ProbIoU 的损失函数后果与GWD-rep 相当, 并且优于GWD-ret 。

4. 总结

本文所出现的办法蕴含以下三个重要局部 :

  • 采纳高斯分布模式检测框 (GBB)
  • 提出基于 Hellinger Distance 的 ProbIoU,并提出对应的损失函数 L1,L2
  • 训练过程中,采纳L1 和 L2 损失函数组合成果更佳

本文所出现的办法局限性蕴含以下两个局部 :

  • 对于等轴的高斯分布,无奈确定其旋转角度
  • 对于修长指标,训练过程中容易梯度过大,造成训练不稳固。

想理解更多的AI技术干货,欢送上华为云的AI专区,目前有AI编程Python等六大实战营供大家收费学习

点击关注,第一工夫理解华为云陈腐技术~