为了高效地学习精确的预测框及其散布,论文对 Focal loss 进行拓展,提出了可能优化间断值指标的 Generalized Focal loss,蕴含 Quality Focal loss 和 Distribution Focal loss 两种具体模式。QFL 用于学习更好的分类分数和定位品质的联结示意,DFL 通过对预测框地位进行 general 散布建模来提供更多的信息以及精确的预测。从试验后果来看,GFL 可能所有 one-stage 检测算法的性能
起源:晓飞的算法工程笔记 公众号
论文: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
- 论文地址:https://arxiv.org/abs/2006.04388
- 论文代码:https://github.com/implus/GFocal
Introduction
目前,dense detector(one-stage) 是指标检测中的支流方向,论文次要探讨其中的两个做法:
- 预测框的示意办法 (representation):可认为是网络对预测框地位的输入,惯例办法将其建模为简略的 Dirac delta 散布,即间接输入地位后果。而有的办法将其建模为高斯分布,输入均值和方差,别离示意地位后果和地位后果的不确定性,提供额定的信息。
- 定位品质预计:最近一些钻研减少了额定的定位品质预测,比方 IoU-Net 退出了 IoU 分数的预测和 FCOS 退出了 centerness 分数的预测,最初将定位品质以及分类分数合并为最终分数。
通过剖析,论文发现上述的两个做法存在以下问题:
- 定位品质预计和分类分数理论不兼容:首先,定位品质预计和分类分数通常是独立训练的,但在推理时却合并应用。其次,定位品质预计只应用正样本点进行训练,导致负样本点可能预计了高定位品质,这种训练和测试的差别会升高检测的性能。
- 预测框示意办法不够灵便:大多算法将其建模为 Dirac delta 散布,这种做法没有思考数据集中的歧义和不确定局部,只晓得后果,不晓得这个后果靠不靠谱。尽管有的办法将其建模为高斯分布,但高斯分布太简略粗犷了,不能反映预测框的实在散布。
为了解决下面的两个问题,论文别离提出了解决的策略:
- 对于定位品质预计,论文将其间接与分类分数进行合并,保留类别向量,每个类别的分数的含意变为与 GT 的 IoU。另外,应用这种形式可能同时对正负样本进行训练,不会再有训练和测试的差别。
- 对于预测框的示意办法,应用 general 的散布进行建模,不再强加任何的束缚,不仅可能取得牢靠和精确的预测后果,还能感知其潜在的实在散布状况。如上图所示,对于存在歧义或不确定的边界,其散布会体现为较平滑的曲线,否则,其散布会示意为尖利的曲线。
实际上,应用上述提到的两种策略会面临优化的问题。在惯例的 one-stage 检测算法中,分类分支都应用 Focal loss 进行优化,而 Focal loss 次要针对离散的分类标签。在论文将定位品质与分类分数联合后,其输入变为类别相干的间断的 IoU 分数,不能间接应用 Focal loss。所以论文对 Focal loss 进行拓展,提出了 GFL(Generalized Focal Los),可能解决间断值指标的全局优化问题。GFL 蕴含 QFL(Quality Focal Los) 和 DFL(Distribution Focal Los) 两种具体模式,QFL 用于优化难样本同时预测对应类别的间断值分数,而 DFL 则通过对预测框地位进行 general 散布的建模来提供更多的信息以及精确的地位预测。
总体而言,GFL 有以下长处:
- 打消额定的品质预计分支在训练和测试时的差别,提出简略且高效的联结预测策略。
- 很好地对预测框的实在散布进行灵便建模,提供更多的信息以及精确的地位预测。
- 在引入额定开销的状况下,可能晋升所有 one-stage 检测算法的性能。
Method
Focal Loss (FL)
FL 次要用于解决 one-stage 指标检测算法中的正负样本不均衡问题:
蕴含规范的穿插熵局部 $-log(p_t)$ 以及缩放因子局部 $(1-p_t)^{\gamma}$,缩放因子会主动将容易样本降权,让训练集中于难样本。
Quality Focal Loss (QFL)
因为 FL 仅反对离散标签,为了将其思维利用到分类与定位品质联合的间断标签,对其进行了扩大。首先将穿插熵局部 $-log(p_t)$ 扩大为残缺模式 $-((1-y)log(1-\sigma) + y\ log(\sigma))$,其次将缩放因子 $(1-p_t)^{\gamma}$ 泛化为预测值 $\sigma$ 与间断标签 $y$ 的相对差值 $|y-\sigma|^{\beta}$,将其组合失去 QFL:
$\sigma=y$ 为 QFL 的全局最小解。
缩放因子的超参数 $\beta$ 用于管制降权的速率,体现如上图所示,假设指标间断标签 $y=0.5$,间隔标签越远产生的权重越大,反之则趋向于 0,跟 FL 相似。
Distribution Focal Loss (DFL)
论文跟其它 one-stage 检测算法一样,将以后地位到指标边界的间隔作为回归指标。惯例的办法将回归指标 $y$ 建模为 Dirac delta 散布,Dirac delta 散布满足 $\int^{+\infty}_{-\infty}\delta(x-y)dx=1$,可通过积分的模式求得标签 $y$:
如后面说到的,这种办法没有体现预测框的实在散布,不能提供更多的信息,所以论文打算将其示意为 general 的散布 $P(x)$。给定标签 $y$ 的取值范畴 $[y_0, y_n]$,可像 Dirac delta 散布那样从建模的 genreal 散布失去预测值 $\hat{y}$:
为了与神经网络兼容,将间断区域 $[y_0, y_n]$ 的积分变为离散区域 $\{y_0, y_1, \cdots, y_i, y_{i+1}, \cdots, y_{n-1}, y_n \}$ 的积分,离散区域的距离 $\Delta=1$,预测值 $\hat{y}$ 可示意为:
$P(x)$ 可通过 softmax 操作 $\mathcal{S}(\cdot)$ 取得,标记为 $\mathcal{S}_i$,预测值 $\hat{y}$ 可应用惯例的办法进行后续的 end-to-end 学习,比方 Smooth L1、IoU loss 和 GIoU Loss。
但实际上,同一个积分后果 $y$ 可由多种不同散布所得,会升高网络学习的效率。思考到更多的散布应该集中于回归指标 $y$ 的左近,论文提出 DFL 来强制网络进步最靠近 $y$ 的 $y_i$ 和 $y_{i+1}$ 的概率,因为回归预测不波及正负样本不均衡的问题,所以 DFL 仅须要穿插熵局部:
DFL 的全局最优解为 $\mathcal{S}_i=\frac{y_{i+1}-y}{y_{i+1}-y_i}$,$\mathcal{S}_{i+1}=\frac{y – y_i}{y_{i+1}-y_i}$,使得 $\hat{y}$ 有限靠近于标签 $y$。
Generalized Focal Loss (GFL)
QFL 和 DFL 可对立地示意为 GFL,假设值 $y_l$ 和 $y_r$ 的预测概率别离为 $p_{y_l}$ 和 $p_{y_r}$,最终的预测后果为 $\hat{y}=y_l p_{y_l}+y_r p_{y_r}$,GT 标签为 $y$,满足 $y_l \le y \le y_r$,将 $|y-\hat{y}|^{\beta}$ 作为缩放因子,GFL 的公式为:
GFL 的全局最优在 $p^{*}_{y_l}=\frac{y_r-y}{y_r-y_l}$,$p^{*}_{y_r}=\frac{y-y_l}{y_r-y_l}$。
FL、QFL 和 DFL 均可认为是 GFL 的非凡状况。应用 GFL 后,与原来的办法相比有以下不同:
- 分类分支的输入间接用于 NMS,不必再进行两分支输入合并的操作
- 回归分支对预测框的每个地位的预测,从原来的输入单个值变为输入 $n+1$ 个值
在应用 GFL 后,网络损失 $\mathcal{L}$ 变为:
$\mathcal{L}_{\mathcal{B}}$ 为 GIoU 损失
Experiment
性能比照。
比照试验。
基于 ATSS 与 SOTA 算法进行比照。
Conclusion
为了高效地学习精确的预测框及其散布,论文对 Focal loss 进行拓展,提出了可能优化间断值指标的 Generalized Focal loss,蕴含 Quality Focal loss 和 Distribution Focal loss 两种具体模式。QFL 用于学习更好的分类分数和定位品质的联结示意,DFL 通过对预测框地位进行 general 散布建模来提供更多的信息以及精确的预测。从试验后果来看,GFL 可能所有 one-stage 检测算法的性能。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】