1、 概括:yolo是一个端到端的指标检测算法,总体思维是将指标检测看成回归问题,失去空间上的分类边界边框以及对应类别概率,论文中提到其劣势:速度快、全局性预测(预测背景中假阳性指标状况缩小)、学习形象特色(对预测形象图像具备劣势);毛病:yolov1检测准确率不如过后支流的检测算法,定位误差绝对大一些
2、 检测思维:

和r-cnn系列不同的是,yolo是对立检测,只须要一次原图片输出,通过一次网络解决,通过整个图像的特色来给出预测出的物体的边框地位以及物体类别概率(一次性给出),yolov将输出图像划分为S*S个grid cell,每个cell能够有B个bbox,论文设置B=2,S=7,所以输出图片一共就有98个bbox边框, 如果对象的核心地位是在某个cell里,那这个cell对应的预测后果就要对这个对象负责,每个cell含有B对信息,每对信息里蕴含(x,y,w,h,confidence),并且每个cell里还蕴含20(因为PASCAL VOC数据集中有20个标记类)个类别的检测概率Pr(class|Object),这里对这里几个变量进行解释:
x,y,w,h的解释:
x,y是物体核心所在的地位坐标;w,h是预测边框bbox的宽与高

(此图引于视频https://www.bilibili.com/vide... 中的解释图片)
其实x,y,w,h都是通过归一化解决过的,如上图,已图片左上角为(0,0)核心坐标点,x,y未归一化解决前是绝对左上角的坐标,,该cell的左上角坐标是(149,149),如图中公示解决后的后果就是咱们失去的
x,y;w,h是预测边框的相对宽(高)除以输出图片的相对宽(高)解决而来的;
confidence的解释:
$confidence=Pr(object)*IoU$
其中Pr(object)的意思是如果该grid cell里有蕴含物体核心,那么他的值就是1,否则就是0;
IoU的意思是cell预测进去的bbox地位与实在边框地位的交并比;
论文中还提到,将cell对应的Pr(class|Object)与confidence做乘积,就能够失去每个类别与IoU的乘积,公式如下,也就是晓得里每个类别的得分值,这些得分值代表该类别物体呈现在框中的概率和边界框与物体的拟合水平。

其实看到这里,就曾经将yolov1检测的外围思路讲完了,能够计算出来,最初输入的具备$7*7*(2*5+20)$个张量,计算公式论文中也说的很分明:
$S*S*(B*5+C)=7*7*(2*5+20)$
3、 网络
论文称受googLeNet启迪,设计的网络结构:

由上图能够可看出该网络结构设计里24层卷积层,最初两层是全连贯层;在ImageNet会先进行预训练,前20层卷积层+1个均匀池化层+1个全连贯层,预训练的输入作为输出再通过四个随机初始化的卷积层+2个全连贯层(因为预训练模型中退出卷积层和全连贯层能够进步性能),最初的输入是$7*7*30$,即为$7*7$个cell,每个cell携带30个维度的信息量,后面曾经介绍过这30个信息是什么了。
补充卷积层计算相干常识:
4、损失函数
该损失函数公式的组成能够分为三局部误差和,如图阐明:

对于这个标示,论文中给的解释是,对于第i个cell的第j个bbox(一个cell有B个bbox,j是其中置信度最大的那个bbox),如果有物体中心点在改cell中,那就取置信度最大的那个第bbox;
则指是(总bbox-上述的bbox),剩下的这些bbox;
文中有解释到,由下面这两个标注量的意义能够晓得,如果不给定位误差加权重的话,因为定位误差具备的bbox绝对noobj的状况会少很多,这样公式不加权重同等对待系数为1相加显然是不合理的,因而论文加了coord = 5和noobj =0 .5两个权重变量,最初组成了上式的误差公式