关于目标检测:yolov1论文初读笔记

44次阅读

共计 1579 个字符，预计需要花费 4 分钟才能阅读完成。

1、概括：yolo 是一个端到端的指标检测算法，总体思维是将指标检测看成回归问题，失去空间上的分类边界边框以及对应类别概率，论文中提到其劣势：速度快、全局性预测（预测背景中假阳性指标状况缩小）、学习形象特色（对预测形象图像具备劣势）；毛病：yolov1 检测准确率不如过后支流的检测算法，定位误差绝对大一些
2、检测思维：

和 r -cnn 系列不同的是，yolo 是对立检测，只须要一次原图片输出，通过一次网络解决，通过整个图像的特色来给出预测出的物体的边框地位以及物体类别概率（一次性给出），yolov 将输出图像划分为 S * S 个 grid cell，每个 cell 能够有 B 个 bbox，论文设置 B =2，S=7, 所以输出图片一共就有 98 个 bbox 边框， 如果对象的核心地位是在某个 cell 里，那这个 cell 对应的预测后果就要对这个对象负责，每个 cell 含有 B 对信息，每对信息里蕴含（x，y，w，h，confidence），并且每个 cell 里还蕴含 20（因为 PASCAL VOC 数据集中有 20 个标记类）个类别的检测概率 Pr(class|Object)，这里对这里几个变量进行解释：
x,y,w,h 的解释：
x,y 是物体核心所在的地位坐标；w,h 是预测边框 bbox 的宽与高

（此图引于视频 https://www.bilibili.com/vide… 中的解释图片）
其实 x,y,w,h 都是通过归一化解决过的，如上图，已图片左上角为（0，0）核心坐标点，x,y 未归一化解决前是绝对左上角的坐标，，该 cell 的左上角坐标是（149，149），如图中公示解决后的后果就是咱们失去的
x,y；w,h 是预测边框的相对宽（高）除以输出图片的相对宽（高）解决而来的；
confidence 的解释：
$confidence=Pr(object)*IoU$
其中 Pr(object)的意思是如果该 grid cell 里有蕴含物体核心，那么他的值就是 1，否则就是 0；
IoU 的意思是 cell 预测进去的 bbox 地位与实在边框地位的交并比；
论文中还提到，将 cell 对应的 Pr(class|Object)与 confidence 做乘积，就能够失去每个类别与 IoU 的乘积，公式如下，也就是晓得里每个类别的得分值，这些得分值代表该类别物体呈现在框中的概率和边界框与物体的拟合水平。

其实看到这里，就曾经将 yolov1 检测的外围思路讲完了，能够计算出来，最初输入的具备 $7*7*(2*5+20)$ 个张量，计算公式论文中也说的很分明：
$S*S*(B*5+C)=7*7*(2*5+20)$
3、网络
论文称受 googLeNet 启迪，设计的网络结构：

由上图能够可看出该网络结构设计里 24 层卷积层，最初两层是全连贯层；在 ImageNet 会先进行预训练，前 20 层卷积层 + 1 个均匀池化层 + 1 个全连贯层，预训练的输入作为输出再通过四个随机初始化的卷积层 + 2 个全连贯层（因为预训练模型中退出卷积层和全连贯层能够进步性能），最初的输入是 $7*7*30$，即为 $7*7$ 个 cell，每个 cell 携带 30 个维度的信息量，后面曾经介绍过这 30 个信息是什么了。
补充卷积层计算相干常识：
4、损失函数
该损失函数公式的组成能够分为三局部误差和，如图阐明：

对于这个标示，论文中给的解释是，对于第 i 个 cell 的第 j 个 bbox（一个 cell 有 B 个 bbox，j 是其中置信度最大的那个 bbox），如果有物体中心点在改 cell 中，那就取置信度最大的那个第 bbox；
则指是（总 bbox- 上述的 bbox），剩下的这些 bbox；
文中有解释到，由下面这两个标注量的意义能够晓得，如果不给定位误差加权重的话，因为定位误差具备的 bbox 绝对 noobj 的状况会少很多，这样公式不加权重同等对待系数为 1 相加显然是不合理的，因而论文加了 λcoord = 5 和 λnoobj =0 .5 两个权重变量，最初组成了上式的误差公式