CSP将指标定义为中心点和尺寸,通过网络间接预测指标的核心和寸尺,绝对于传统的RCNN类型检测算法轻量化了不少。整体思维与Object as Points撞车了,真是英雄所见略同

起源:晓飞的算法工程笔记 公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

  • 论文地址:https://arxiv.org/abs/1904.02948
  • 论文代码:https://github.com/liuwei16/CSP

Introduction


  目前一些钻研基于深度卷积网络进行边缘检测,取得了不错的成果。论文认为既然卷积网络可能预测边缘,那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的指标定义为中心点及尺寸,提出了CSP(Center and Scale Prediction)

  CSP的网络结构大抵如图1所示,在骨干网络上别离预测指标中心点的地位及其对应的尺寸。这篇文章的整体思维与CenterNet(zhou. etc)基本一致,但不是剽窃,因为是同一个会议上的论文,CenterNet次要钻研惯例的指标检测,而这篇次要钻研人脸检测和行人检测。但CSP依然须要进行NMS的后处理,较CenterNet更逊色一些,但不障碍咱们进行简略地理解,包含学习论文的训练方法以及参数。

Overall architecture


  CSP检测算法的构造如图2所示,骨干网络由ImageNet的预训练网络截断所得,次要分为特征提取局部以及预测局部。

Feature Extraction

  以ResNet-50为例,卷积层分为五个阶段,下采样比例别离为2、4、8、16和32,论文进行了以下批改与设置:

  • 将第五阶段的卷积更换为空洞卷积,使其放弃下采样比例为16。
  • 为了交融浅层和高层特色,在Concatenate前将多阶段输入进行反卷积扩充至同一分辨率。
  • 因为不同阶段特色图的分辨率不同,应用L2-normalization将各阶段特色图的范数缩放为10。
  • 论文通过试验最终只选用了第3、第4和第5阶段的特色进行检测。
  • 给定大小为$H\times W$的输出图片,最终的concatenated特色图大小为$H/r \times W/r$,r为4时性能最好。

Detection Head

  在取得concatenated特色图$\Phi_{det}$后,应用简略的detection head将特色转化为检测后果。首先采纳$3\times 3$卷积层输入256维特色,而后别离应用$1\times 1$卷积层来产生偏移值预测,尺寸图和中心点热图。

Training


Ground Truth

  给定GT标注,可能主动地生成对应的GT中心点地位和尺寸。将GT标注对应特色图上的地位设定为中心点正样本,其它地位均为负样本。尺寸可定义为指标的高和宽,对于应用line annotation标注的行人数据集,其长宽比固定为0.41,仅需预测高度即可。对于GT尺寸,正样本地位$k$的值定义为$log(h_k)$,在其半径范畴2以内的地位也设为同样的值,其余设置为零。而若退出偏移值预测分支,该分支的GT定义为$(\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor
\frac{y_k}{r} \rfloor )$。

Loss Function

  对于中心点预测分支,将其视为分类工作应用穿插熵损失进行训练。为了让训练更加平滑,跟CornerNet一样定义高斯核,在特色图上对GT点进行半径范畴内的扩大:

  $K$为图片中的指标数,$(x_k, y_k, w_k, h_k)$为核心坐标以及宽高,方差$(\sigma^k_w, \sigma^k_h)$与指标的高和宽成比例,如果高斯区域有重叠,则取最大值。为了避免正负样本极度不均衡,退出focal loss的权值进行均衡:

  $p_{ij}\in [0,1]$代表网络预测该地位为指标核心的概率,$y_{i,j}\in {0, 1}$代表GT标签。
  对于尺寸预测,将其视为回归工作应用smooth L1损失进行训练:

  $s_k$和$t_k$别离代表网络预测后果和每个指标的GT。如果应用了偏移值分支,则同样将其视为回归工作进行训练。残缺的优化指标为:

  $\lambda_c$, $\lambda_s$, $\lambda_o$别离设置为0.01,1和0.1

Inference


  在测试的时候,CSP间接进行简略的前向推理,保留核心热图中置信度大于0.01的地位及其尺寸后果,生成对应的预测框并映射到原图尺寸,对所有保留的预测后果进行NMS解决。如果应用了偏移值预测分支,则对映射后的中心点进行调整。

Conclusion


  CSP将指标定义为中心点和尺寸,通过网络间接预测指标的核心和寸尺,绝对于传统的RCNN类型检测算法轻量化了不少。整体思维与Object as Points撞车了,发表于同一期会议,真是英雄所见略同了。



如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】