共计 3121 个字符,预计需要花费 8 分钟才能阅读完成。
Jigsaw pre-training 以拼图的形式从检测数据集中生成用于骨干网络预训练的数据集,而不须要额定的预训练数据集,如 ImageNet。另外为了让网络更好的适应拼图数据,论文提出 ERF-adaptive 密集分类办法,可能很好地扩充预训练骨干网络的无效感触域。整体而言,Jigsaw pre-training 不便且高效,性能比应用 ImageNet 预训练模型成果要好。
起源:晓飞的算法工程笔记 公众号
论文: Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection
- 论文地址:https://arxiv.org/abs/2004.12178
Introduction
指标检测网络个别都应用如 ImageNet 的大型分类数据集进行骨干网络的预训练,借助大规模数据集上学习到的特色表白,能帮忙检测算法更快地收敛,但这种办法带来的额定数据集需要和计算耗费是不可漠视的。只管有一些办法通过改善权值初始化来优化间接训练检测网络的成果,但这种办法通常收敛都比较慢,须要更多的训练工夫,次要因为骨干网络在间接训练时会面对大量的有效信息,过多的背景会带来冗余的计算耗费,造成收敛过慢且成果不好。
基于下面的剖析,论文提出了很“实惠”的预训练方法 Jigsaw pre-training,从检测数据集中提取出指标样本和背景样本,依据指标的长宽比以拼图的形式将其组合成一个训练样本进行模型预训练。为了进步预训练网络的无效感触域,论文设计了 ERF-adaptive 密集分类策略,依据无效感触域 (ERF) 来给每个特色点指定平滑标签(soft label)。论文的奉献如下:
- 提出高效且通用的预训练范式,仅需检测数据集,打消了额定的预训练数据需要。
- 设计了样本提取规定,以拼图策略和 ERF-adaptive 密集分类来高效地进行骨干网络的预训练,进步了训练效率和最终性能。
- 在不同的检测框架验证了 Jigsaw pre-training 的有效性,展现其通用型。
Methodology
Jigsaw pre-training 办法如图 1 所示,可能用于各种指标检测框架中。给定检测数据集 $\mathcal{D}$,从中提取正负指标保留为分类数据集,这些指标以拼图的模式组合并用于检测器骨干网络的预训练,训练应用论文提出的 ERF-adaptive 损失。在实现预训练后,以 fine-tuned 的形式在 $\mathcal{D}$ 上训练指标检测模型。
Sample Selection
在指标检测模型训练中,正负样本均衡是非常重要的。为了高效的预训练,论文小心地将原图提取的指标划分为正负样本,正负样本的提取都有其对应的规定。
Positive samples
依据 GT bbox 从原图提取区域,思考到上下文信息对特色表白的学习有帮忙,随机扩充 bbox 大小来蕴含更多的上下文信息。具体做法为挪动 bbox 的左上角和右下角,最大可扩大为原边长的两倍,若 bbox 超过原图边界则进行裁剪,如上图所示。
Negative samples
为了让预训练模型更适应检测场景,从背景区域提取一些负样本。首先随机生成一些候选区域,而后获取 $IoU(pos, neg)=0$ 的所有负样本,这样正负样本就是互斥的。在论文的试验中,正负样本的比例为 10:1。
Jigsaw Assembly
有很多办法可能解决样本进行预训练,比方 warping 以及 padding,但 warping 会毁坏本来的上下文信息和形态,而 padding 会退出无意义的填充像素,带来额定的计算工夫和资源耗费。为了更无效地进行预训练,论文基于指标的尺寸和长宽比,采纳拼图的形式解决样本,每次拼四个指标。在取得所有样本后,依据长宽比将他们分为 3 组:
- Group S(square):长宽比在 0.5 到 1.5 间接
- Group T(tall):长宽比小于 0.5
- Group W(wide):长宽比大于 1.5
如上图所示,每次拼图随机抉择两个 S 样本、1 个 T 样本和 1 个 W 样本填充到预设的区域中。较小的 S 样本搁置于左上角,较大的 S 样本搁置于右下角,而 T 样本和 W 样本别离搁置于左下角和右上角。若样本大小不合乎预设的拼图区域大小不统一,依据其大小抉择填充或随机裁剪,依据试验后果,不会对指标进行缩放和 warping。
ERF-adaptive Dense Classification
因为拼图样本可能蕴含多个类别的指标,因而须要非凡的训练方法,论文先介绍了两种用于比照的策略:
- Global classification,给整张图片一个全局的标签,该标签为 4 个指标标签的区域大小加权和,有点相似 CutMix 数据加强办法,最初应用全局池化,进行穿插熵损失更新。
- Block-wise classification,保留每个指标的标签,在池化的时候对每个区域对应的特色进行独立的池化和预测,最初也独自地进行穿插熵损失计算。
但论文通过可视化左上角区域的无效感触域发现,下面两种办法的左上角区域的无效感触域都集中在了对应小 S -sample 区域,这种局限的无效感触域可能会升高深度模型的性能。
为了尽量思考每个像素,论文提出 ERF-adaptive 密集分类策略,对特色图 $X$ 的每个地位进行分类,而每个地位的 soft label 基于其对应的无效感触域计算。定义每个区域 $R_i$ 的原标签 $y_i$,对于特色图 $X$ 的每个地位 $(j,k)$,soft label $\tilde{y}^{j,k}$ 为 4 个标签的加权和:
权重 $w^{j,k}_i$ 取决于无效感触域,对于地位 $(j,k)$,其对应的输出空间的无效感触域为 $G^{j,k}\in \mathbb{R}^{H\times W}$ 后,权重 $w^{j,k}_i$ 为无效感触域在区域 $i$ 内的权值之和与整体无效感触域权值之和的比值。另外,如果地位 $(j,k)$ 在区域 $i$ 内,设定 $w^{j,k}_i$ 的最小阈值 $\tau$,保障 $y_i$ 主导 soft label。整体的公式可示意为:
$M^i \in \{0,1\}^{H\times W}$ 为二值掩膜,用来标记 ERF 在区域 $i$ 中局部。
在失去地位 $(j,k)$ 的权重 $\{w^{j,k}_i \}$ 后,计算每个地位的 soft label。在对特色 $x^{j,k}$ 进行浓密分类时,将最初的全连贯层替换为 $1\times 1$ 卷积进行预测,最初对预测特色图的每个地位与 soft label 进行穿插熵损失。为了偏心起见,对 loss map 进行 block-wise 池化。须要留神的是,权重在每 5k 次迭代更新一次,而不是每次迭代都更新。
同样是左上角区域对应的无效感触域的可视化,ERF-adaptive 有更大的无效感触域。
论文也对 3 种策略的成果进行了比照。
Experiments
与 ImageNet 预训练方法比照,Cost 为耗时,单位为 GPU day。
不同训练参数的性能差别。
不同骨干网络上的成果比照。
在多种检测框架和策略上进行比照。
与间接训练方法的比照。
Conclustion
论文提出了一种高效的预训练方法 Jigsaw pre-training,该办法以拼图的形式从检测数据集中生成用于骨干网络预训练的数据集,而不须要额定的预训练数据集,如 ImageNet。另外为了让网络更好的适应拼图数据,论文提出 ERF-adaptive 密集分类办法,可能很好地扩充预训练骨干网络的无效感触域。整体而言,Jigsaw pre-training 不便且高效,性能比应用 ImageNet 预训练模型成果要好。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】