为了高效地学习精确的预测框及其散布，论文对Focal loss进行拓展，提出了可能优化间断值指标的Generalized Focal loss，蕴含Quality Focal loss和Distribution Focal loss两种具体模式。QFL用于学习更好的分类分数和定位品质的联结示意，DFL通过对预测框地位进行general散布建模来提供更多的信息以及精确的预测。从试验后果来看，GFL可能所有one-stage检测算法的性能

起源：晓飞的算法工程笔记公众号

论文: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/abs/2006.04388
论文代码：https://github.com/implus/GFocal

Introduction

目前，dense detector(one-stage)是指标检测中的支流方向，论文次要探讨其中的两个做法：

预测框的示意办法(representation)：可认为是网络对预测框地位的输入，惯例办法将其建模为简略的Dirac delta散布，即间接输入地位后果。而有的办法将其建模为高斯分布，输入均值和方差，别离示意地位后果和地位后果的不确定性，提供额定的信息。

定位品质预计：最近一些钻研减少了额定的定位品质预测，比方IoU-Net退出了IoU分数的预测和FCOS退出了centerness分数的预测，最初将定位品质以及分类分数合并为最终分数。

通过剖析，论文发现上述的两个做法存在以下问题：

定位品质预计和分类分数理论不兼容：首先，定位品质预计和分类分数通常是独立训练的，但在推理时却合并应用。其次，定位品质预计只应用正样本点进行训练，导致负样本点可能预计了高定位品质，这种训练和测试的差别会升高检测的性能。
预测框示意办法不够灵便：大多算法将其建模为Dirac delta散布，这种做法没有思考数据集中的歧义和不确定局部，只晓得后果，不晓得这个后果靠不靠谱。尽管有的办法将其建模为高斯分布，但高斯分布太简略粗犷了，不能反映预测框的实在散布。

为了解决下面的两个问题，论文别离提出了解决的策略：

对于定位品质预计，论文将其间接与分类分数进行合并，保留类别向量，每个类别的分数的含意变为与GT的IoU。另外，应用这种形式可能同时对正负样本进行训练，不会再有训练和测试的差别。

对于预测框的示意办法，应用general的散布进行建模，不再强加任何的束缚，不仅可能取得牢靠和精确的预测后果，还能感知其潜在的实在散布状况。如上图所示，对于存在歧义或不确定的边界，其散布会体现为较平滑的曲线，否则，其散布会示意为尖利的曲线。

实际上，应用上述提到的两种策略会面临优化的问题。在惯例的one-stage检测算法中，分类分支都应用Focal loss进行优化，而Focal loss次要针对离散的分类标签。在论文将定位品质与分类分数联合后，其输入变为类别相干的间断的IoU分数，不能间接应用Focal loss。所以论文对Focal loss进行拓展，提出了GFL(Generalized Focal Los)，可能解决间断值指标的全局优化问题。GFL蕴含QFL(Quality Focal Los)和DFL( Distribution Focal Los)两种具体模式，QFL用于优化难样本同时预测对应类别的间断值分数，而DFL则通过对预测框地位进行general散布的建模来提供更多的信息以及精确的地位预测。
总体而言，GFL有以下长处：

打消额定的品质预计分支在训练和测试时的差别，提出简略且高效的联结预测策略。
很好地对预测框的实在散布进行灵便建模，提供更多的信息以及精确的地位预测。
在引入额定开销的状况下，可能晋升所有one-stage检测算法的性能。

Method

Focal Loss (FL)

FL次要用于解决one-stage指标检测算法中的正负样本不均衡问题：

蕴含规范的穿插熵局部$-log(p_t)$以及缩放因子局部$(1-p_t)^{\gamma}$，缩放因子会主动将容易样本降权，让训练集中于难样本。

Quality Focal Loss (QFL)

因为FL仅反对离散标签，为了将其思维利用到分类与定位品质联合的间断标签，对其进行了扩大。首先将穿插熵局部$-log(p_t)$扩大为残缺模式$-((1-y)log(1-\sigma) + y\ log(\sigma))$，其次将缩放因子$(1-p_t)^{\gamma}$泛化为预测值$\sigma$与间断标签$y$的相对差值$|y-\sigma|^{\beta}$，将其组合失去QFL：

$\sigma=y$为QFL的全局最小解。

缩放因子的超参数$\beta$用于管制降权的速率，体现如上图所示，假设指标间断标签$y=0.5$，间隔标签越远产生的权重越大，反之则趋向于0，跟FL相似。

Distribution Focal Loss (DFL)

论文跟其它one-stage检测算法一样，将以后地位到指标边界的间隔作为回归指标。惯例的办法将回归指标$y$建模为Dirac delta散布，Dirac delta散布满足$\int^{+\infty}_{-\infty}\delta(x-y)dx=1$，可通过积分的模式求得标签$y$：

如后面说到的，这种办法没有体现预测框的实在散布，不能提供更多的信息，所以论文打算将其示意为general的散布$P(x)$。给定标签$y$的取值范畴$[y_0, y_n]$，可像Dirac delta散布那样从建模的genreal散布失去预测值$\hat{y}$：

为了与神经网络兼容，将间断区域$[y_0, y_n]$的积分变为离散区域$\{y_0, y_1, \cdots, y_i, y_{i+1}, \cdots, y_{n-1}, y_n \}$的积分，离散区域的距离$\Delta=1$，预测值$\hat{y}$可示意为：

$P(x)$可通过softmax操作$\mathcal{S}(\cdot)$取得，标记为$\mathcal{S}_i$，预测值$\hat{y}$可应用惯例的办法进行后续的end-to-end学习，比方Smooth L1、IoU loss和GIoU Loss。

但实际上，同一个积分后果$y$可由多种不同散布所得，会升高网络学习的效率。思考到更多的散布应该集中于回归指标$y$的左近，论文提出DFL来强制网络进步最靠近$y$的$y_i$和$y_{i+1}$的概率，因为回归预测不波及正负样本不均衡的问题，所以DFL仅须要穿插熵局部：

DFL的全局最优解为$\mathcal{S}_i=\frac{y_{i+1}-y}{y_{i+1}-y_i}$，$\mathcal{S}_{i+1}=\frac{y – y_i}{y_{i+1}-y_i}$，使得$\hat{y}$有限靠近于标签$y$。

Generalized Focal Loss (GFL)

QFL和DFL可对立地示意为GFL，假设值$y_l$和$y_r$的预测概率别离为$p_{y_l}$和$p_{y_r}$，最终的预测后果为$\hat{y}=y_l p_{y_l}+y_r p_{y_r}$，GT标签为$y$，满足$y_l \le y \le y_r$，将$|y-\hat{y}|^{\beta}$作为缩放因子，GFL的公式为：

GFL的全局最优在$p^{*}_{y_l}=\frac{y_r-y}{y_r-y_l}$，$p^{*}_{y_r}=\frac{y-y_l}{y_r-y_l}$。

FL、QFL和DFL均可认为是GFL的非凡状况。应用GFL后，与原来的办法相比有以下不同：

分类分支的输入间接用于NMS，不必再进行两分支输入合并的操作
回归分支对预测框的每个地位的预测，从原来的输入单个值变为输入$n+1$个值

在应用GFL后，网络损失$\mathcal{L}$变为：

$\mathcal{L}_{\mathcal{B}}$为GIoU损失

Experiment

性能比照。

比照试验。

基于ATSS与SOTA算法进行比照。

Conclusion

为了高效地学习精确的预测框及其散布，论文对Focal loss进行拓展，提出了可能优化间断值指标的Generalized Focal loss，蕴含Quality Focal loss和Distribution Focal loss两种具体模式。QFL用于学习更好的分类分数和定位品质的联结示意，DFL通过对预测框地位进行general散布建模来提供更多的信息以及精确的预测。从试验后果来看，GFL可能所有one-stage检测算法的性能。

如果本文对你有帮忙，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

关于算法:Generalized-Focal-LossFocal-loss魔改以及预测框概率分布保涨点-NeurIPS-2020

Introduction

Method

Focal Loss (FL)

Quality Focal Loss (QFL)

Distribution Focal Loss (DFL)

Generalized Focal Loss (GFL)

Experiment

Conclusion

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:Generalized-Focal-LossFocal-loss魔改以及预测框概率分布保涨点-NeurIPS-2020

Introduction

Method

Focal Loss (FL)

Quality Focal Loss (QFL)

Distribution Focal Loss (DFL)

Generalized Focal Loss (GFL)

Experiment

Conclusion

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复