共计 2179 个字符,预计需要花费 6 分钟才能阅读完成。
CSP 将指标定义为中心点和尺寸,通过网络间接预测指标的核心和寸尺,绝对于传统的 RCNN 类型检测算法轻量化了不少。整体思维与 Object as Points 撞车了,真是英雄所见略同
起源:晓飞的算法工程笔记 公众号
论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)
- 论文地址:https://arxiv.org/abs/1904.02948
- 论文代码:https://github.com/liuwei16/CSP
Introduction
目前一些钻研基于深度卷积网络进行边缘检测,取得了不错的成果。论文认为既然卷积网络可能预测边缘,那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的指标定义为中心点及尺寸,提出了 CSP(Center and Scale Prediction)
CSP 的网络结构大抵如图 1 所示,在骨干网络上别离预测指标中心点的地位及其对应的尺寸。这篇文章的整体思维与 CenterNet(zhou. etc) 基本一致,但不是剽窃,因为是同一个会议上的论文,CenterNet 次要钻研惯例的指标检测,而这篇次要钻研人脸检测和行人检测。但 CSP 依然须要进行 NMS 的后处理,较 CenterNet 更逊色一些,但不障碍咱们进行简略地理解,包含学习论文的训练方法以及参数。
Overall architecture
CSP 检测算法的构造如图 2 所示,骨干网络由 ImageNet 的预训练网络截断所得,次要分为特征提取局部以及预测局部。
Feature Extraction
以 ResNet-50 为例,卷积层分为五个阶段,下采样比例别离为 2、4、8、16 和 32,论文进行了以下批改与设置:
- 将第五阶段的卷积更换为空洞卷积,使其放弃下采样比例为 16。
- 为了交融浅层和高层特色,在 Concatenate 前将多阶段输入进行反卷积扩充至同一分辨率。
- 因为不同阶段特色图的分辨率不同,应用 L2-normalization 将各阶段特色图的范数缩放为 10。
- 论文通过试验最终只选用了第 3、第 4 和第 5 阶段的特色进行检测。
- 给定大小为 $H\times W$ 的输出图片,最终的 concatenated 特色图大小为 $H/r \times W/r$,r 为 4 时性能最好。
Detection Head
在取得 concatenated 特色图 $\Phi_{det}$ 后,应用简略的 detection head 将特色转化为检测后果。首先采纳 $3\times 3$ 卷积层输入 256 维特色,而后别离应用 $1\times 1$ 卷积层来产生偏移值预测,尺寸图和中心点热图。
Training
Ground Truth
给定 GT 标注,可能主动地生成对应的 GT 中心点地位和尺寸。将 GT 标注对应特色图上的地位设定为中心点正样本,其它地位均为负样本。尺寸可定义为指标的高和宽,对于应用 line annotation 标注的行人数据集,其长宽比固定为 0.41,仅需预测高度即可。对于 GT 尺寸,正样本地位 $k$ 的值定义为 $log(h_k)$,在其半径范畴 2 以内的地位也设为同样的值,其余设置为零。而若退出偏移值预测分支,该分支的 GT 定义为 $(\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor
\frac{y_k}{r} \rfloor )$。
Loss Function
对于中心点预测分支,将其视为分类工作应用穿插熵损失进行训练。为了让训练更加平滑,跟 CornerNet 一样定义高斯核,在特色图上对 GT 点进行半径范畴内的扩大:
$K$ 为图片中的指标数,$(x_k, y_k, w_k, h_k)$ 为核心坐标以及宽高,方差 $(\sigma^k_w, \sigma^k_h)$ 与指标的高和宽成比例,如果高斯区域有重叠,则取最大值。为了避免正负样本极度不均衡,退出 focal loss 的权值进行均衡:
$p_{ij}\in [0,1]$ 代表网络预测该地位为指标核心的概率,$y_{i,j}\in {0, 1}$ 代表 GT 标签。
对于尺寸预测,将其视为回归工作应用 smooth L1 损失进行训练:
$s_k$ 和 $t_k$ 别离代表网络预测后果和每个指标的 GT。如果应用了偏移值分支,则同样将其视为回归工作进行训练。残缺的优化指标为:
$\lambda_c$, $\lambda_s$, $\lambda_o$ 别离设置为 0.01,1 和 0.1
Inference
在测试的时候,CSP 间接进行简略的前向推理,保留核心热图中置信度大于 0.01 的地位及其尺寸后果,生成对应的预测框并映射到原图尺寸,对所有保留的预测后果进行 NMS 解决。如果应用了偏移值预测分支,则对映射后的中心点进行调整。
Conclusion
CSP 将指标定义为中心点和尺寸,通过网络间接预测指标的核心和寸尺,绝对于传统的 RCNN 类型检测算法轻量化了不少。整体思维与 Object as Points 撞车了,发表于同一期会议,真是英雄所见略同了。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】