关于算法:CSPObject-as-Point同会议论文相似思想用于人脸和行人检测-CVPR-2019

36次阅读

共计 2179 个字符，预计需要花费 6 分钟才能阅读完成。

CSP 将指标定义为中心点和尺寸，通过网络间接预测指标的核心和寸尺，绝对于传统的 RCNN 类型检测算法轻量化了不少。整体思维与 Object as Points 撞车了，真是英雄所见略同

起源：晓飞的算法工程笔记公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

论文地址：https://arxiv.org/abs/1904.02948
论文代码：https://github.com/liuwei16/CSP

目前一些钻研基于深度卷积网络进行边缘检测，取得了不错的成果。论文认为既然卷积网络可能预测边缘，那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的指标定义为中心点及尺寸，提出了 CSP(Center and Scale Prediction)

CSP 的网络结构大抵如图 1 所示，在骨干网络上别离预测指标中心点的地位及其对应的尺寸。这篇文章的整体思维与 CenterNet(zhou. etc) 基本一致，但不是剽窃，因为是同一个会议上的论文，CenterNet 次要钻研惯例的指标检测，而这篇次要钻研人脸检测和行人检测。但 CSP 依然须要进行 NMS 的后处理，较 CenterNet 更逊色一些，但不障碍咱们进行简略地理解，包含学习论文的训练方法以及参数。

CSP 检测算法的构造如图 2 所示，骨干网络由 ImageNet 的预训练网络截断所得，次要分为特征提取局部以及预测局部。

以 ResNet-50 为例，卷积层分为五个阶段，下采样比例别离为 2、4、8、16 和 32，论文进行了以下批改与设置：

将第五阶段的卷积更换为空洞卷积，使其放弃下采样比例为 16。
为了交融浅层和高层特色，在 Concatenate 前将多阶段输入进行反卷积扩充至同一分辨率。
因为不同阶段特色图的分辨率不同，应用 L2-normalization 将各阶段特色图的范数缩放为 10。
论文通过试验最终只选用了第 3、第 4 和第 5 阶段的特色进行检测。
给定大小为 $H\times W$ 的输出图片，最终的 concatenated 特色图大小为 $H/r \times W/r$，r 为 4 时性能最好。

在取得 concatenated 特色图 $\Phi_{det}$ 后，应用简略的 detection head 将特色转化为检测后果。首先采纳 $3\times 3$ 卷积层输入 256 维特色，而后别离应用 $1\times 1$ 卷积层来产生偏移值预测，尺寸图和中心点热图。

给定 GT 标注，可能主动地生成对应的 GT 中心点地位和尺寸。将 GT 标注对应特色图上的地位设定为中心点正样本，其它地位均为负样本。尺寸可定义为指标的高和宽，对于应用 line annotation 标注的行人数据集，其长宽比固定为 0.41，仅需预测高度即可。对于 GT 尺寸，正样本地位 $k$ 的值定义为 $log(h_k)$，在其半径范畴 2 以内的地位也设为同样的值，其余设置为零。而若退出偏移值预测分支，该分支的 GT 定义为 $(\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor
\frac{y_k}{r} \rfloor )$。

对于中心点预测分支，将其视为分类工作应用穿插熵损失进行训练。为了让训练更加平滑，跟 CornerNet 一样定义高斯核，在特色图上对 GT 点进行半径范畴内的扩大：

$K$ 为图片中的指标数，$(x_k, y_k, w_k, h_k)$ 为核心坐标以及宽高，方差 $(\sigma^k_w, \sigma^k_h)$ 与指标的高和宽成比例，如果高斯区域有重叠，则取最大值。为了避免正负样本极度不均衡，退出 focal loss 的权值进行均衡：

$p_{ij}\in [0,1]$ 代表网络预测该地位为指标核心的概率，$y_{i,j}\in {0, 1}$ 代表 GT 标签。
对于尺寸预测，将其视为回归工作应用 smooth L1 损失进行训练：

$s_k$ 和 $t_k$ 别离代表网络预测后果和每个指标的 GT。如果应用了偏移值分支，则同样将其视为回归工作进行训练。残缺的优化指标为：

$\lambda_c$, $\lambda_s$, $\lambda_o$ 别离设置为 0.01，1 和 0.1

在测试的时候，CSP 间接进行简略的前向推理，保留核心热图中置信度大于 0.01 的地位及其尺寸后果，生成对应的预测框并映射到原图尺寸，对所有保留的预测后果进行 NMS 解决。如果应用了偏移值预测分支，则对映射后的中心点进行调整。

CSP 将指标定义为中心点和尺寸，通过网络间接预测指标的核心和寸尺，绝对于传统的 RCNN 类型检测算法轻量化了不少。整体思维与 Object as Points 撞车了，发表于同一期会议，真是英雄所见略同了。

如果本文对你有帮忙，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

正文完

算法

发表至：算法

2021-06-23

0

用堆栈实现表达式的计算2

关于算法:书籍推荐深度学习中的正则化

关于算法:LeetCodeGolang-167-两数之和-II-输入有序数组

关于算法:R语言极值理论-EVTPOT超阈值GARCH-模型分析股票指数VaR条件CVaR多元化投资组合预测风险测度分析

关于pytorch:pytorch前向传播和反向传播

关于算法:CSPObject-as-Point同会议论文相似思想用于人脸和行人检测-CVPR-2019

Introduction

Overall architecture

Feature Extraction

Detection Head

Training

Ground Truth

Loss Function

Inference

Conclusion

Just My Socks（注册教程内含优惠码）

关于算法:CSPObject-as-Point同会议论文相似思想用于人脸和行人检测-CVPR-2019

Introduction

Overall architecture

Feature Extraction

Detection Head

Training

Ground Truth

Loss Function

Inference

Conclusion

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）