共计 2876 个字符,预计需要花费 8 分钟才能阅读完成。
本文提出了针对单阶段半监督指标检测工作的 Ambiguity-Resistant Semi-supervised Learning(ARSL)算法,翻新地提出了两个通用的单阶段半监督检测模块:Joint-Confidence Estimation(JCE)和 Task-Separation Assignment(TSA)。JCE 通过联结分类和定位工作的置信度评估伪标签品质。TSA 基于老师模型预测的联结置信度将样本划分为正样本、负样本和不置可否的候选样本,并进一步在候选样本中别离为分类、定位工作筛选潜在正样本。
背景及动机
基于深度学习的指标检测算法通常依赖大规模标注数据能力施展出最大的威力。为了节俭标注人力,升高数据标注老本,半监督指标检测(SSOD)应运而生。半监督指标检测旨在利用大量的标注数据和大量的无标注数据进行模型训练,在最新进展中,其次要依赖于 Mean-Teacher 框架以及 Pseudo-labeling 技术,即用老师模型在无标注数据上生成的伪标签(Pseudo labels)训练学生模型,再基于学生模型在时序上的权重均值来更新老师模型。
图 1. 在根底半监督框架下,单阶段检测器(FCOS)的晋升弱于两阶段办法(Faster RCNN)然而基于该流程,咱们发现相比于两阶段检测器(如 Faster RCNN),单阶段检测算法(如 FCOS)仅能获得绝对无限的晋升。是什么限度了单阶段检测器的半监督训练? 通过定量分析,咱们发现单阶段检测器的伪标签中存在重大的 筛选歧义性 (Selection Ambiguity)及 样本调配歧义性(Assignment Ambiguity)。
.png”)
表 1. (筛选歧义性) 伪标签的品质剖析
.png”)
图 2. (调配歧义性) 不同阈值下,样本调配的正确性
筛选歧义性 是指,因为检测后果的分类置信度和定位品质并不匹配,使得基于分类得分筛选的伪标签不够精确。这一点在单阶段检测器中更加重大。表 1 中能够看到,相比于 Faster RCNN,FCOS 预测的检测后果中,分类得分和定位品质的相关性更低。换句话说,FCOS 筛选高质量伪标签的能力更弱。
调配歧义性 是指,基于伪标签的样本调配中,大量样本被调配了谬误的标签。问题的本源在于,FCOS 的调配策略间接将边界框外部(或核心区域)的样本划分为正样本,而疏忽了伪标签的边界框并不精确。这使得大量的背景区域被当成了正样本(False Positive),同时被阈值过滤掉的物体也被划分为了负样本(False Negative)。如图 2 所示,不论伪标签的筛选阈值如何设置,调配后果中均存在大量的 false positive 和 false negative。能够看出,基于边界框的样本调配策略(如 FCOS 的 center sampling)在伪标签调配上存在着人造的劣势。另外,相比于 Faster RCNN,FCOS 等单阶段检测器须要像素级的样本标签,因而对调配歧义性更加敏感。
算法简介
为了解决上述问题,咱们提出了 Ambiguity-Resistant Semi-supervised Learning(ARSL),包含 Joint-Confidence Estimation(JCE)和 Task-Separation Assignment(TSA),通用于单阶段半监督指标检测工作。
.png”)
图 3. ARSL 框架图。对于无标签数据,老师模型首先通过 JCE 预测样本的联结置信度。而后,TSA 基于置信度将样本划分为正样本、负样本和不置可否的候选样本,并进一步为分类、定位工作筛选潜在正样本。
针对伪标签的筛选歧义性,JCE 基于分类工作和定位工作的联结置信度来评估伪标签的品质。更为具体地,JCE 通过双分支构造,同时预测分类得分和定位品质,并将两者的乘积作为联结置信度。为了防止两个分支独自训练所导致的次优状态,对于标注数据,两者应用 IoU-based soft label 进行联结训练;对于无标注数据,间接应用老师模型联结置信度的最大响应值进行训练。
.png”)
图 4. JCE 示意图
.png”)
图 5. 正负样本在联结置信度区间中的散布
针对伪标签的调配歧义性,TSA 摒弃了 box-based assignment,基于老师模型在每个样本点上预测的联结置信度,间接对其进行正负样本划分。然而如上图 5 所示,处于置信度两头区域的样本仍然是难以抉择的。为此,TSA 首先应用基于统计信息的双阈值将样本分为负样本、正样本和不置可否的候选样本,而后在候选样本中别离为分类工作和定位工作进一步筛选潜在正样本。候选样本次要由低置信度的正样本和艰难负样本组成,并不是单纯的背景区域(均匀 IoU 为 0.369)。对于分类工作,这些样本都值得学习,因而所有候选样本都参加老师模型的一致性学习,间接模拟老师模型预测的概率分布。而定位工作对样本的抉择更加刻薄,差异性过大会导致定位工作不收敛。因而,TSA 通过评估候选样本于正样本的相似性来筛选潜在正样本(类别相似性、定位相似性、几何地位相似性),并应用正样本边界框的加权值作为潜在正样本的学习指标。
试验成果
与半监督检测 SOTA 的比照
.png”)
.png”)
在 COCO-Standard 1%,2%,5%,10% split 中(应用 1%,2%, 5%,10% 的 COCO_train2017 标注数据进行监督训练,残余作为无标注数据进行半监督训练,每个 split 均采样 5 组数据),ARSL 均高于以后的 SOTA 算法,减少大尺度抖动(large-scale jittering)后进一步拉大了差距。
在 COCO-Full 中(应用全副的 COCO_train2017 标注数据进行监督训练,COCO_unlabel2017 作为无标注数据),ARSL 在较短的训练周期下获得了更加显著的晋升。
融化性剖析
.png”)
.png”)
表 5. 能够看到,FCOS 在根底的半监督框架下仅获得了 4.7%AP 的晋升(26.0%->30.7%),而基于 ARSL 则进一步晋升了 6.2%AP 达到了 36.9%AP。其中,JCE 和 TSA 别离涨点 4.0%AP,2.2%AP。表 6 为 JCE 中各个策略的晋升成果。
歧义性打消的验证剖析
.png”)
表 8. 筛选歧义性
.png”)
图 6. 调配歧义性
表 8. 通过定量分析验证了 JCE 能够筛选出更高质量的伪标签,从而晋升半监督学习的成果。图 6. 剖析验证了 TSA 中样本标签调配的正确性。具体来说,TSA w/o mining 将 True Positive 的数量晋升了 111.4%,还额定缩小 23.4% 的 False Positive。进一步筛选潜在正样本(Mining)能够将 True Positive 的数量晋升至 169.8%。
对于本篇 ARSL 欢送大家入群探讨,也欢送大家在 GitHub点 star反对咱们的工作!
.png”)
相干链接
.png”)
- 论文地址
https://arxiv.org/abs/2303.14960
- 代码地址
https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det