关于算法:YOLO-V3

63次阅读

共计 1052 个字符,预计需要花费 3 分钟才能阅读完成。

原文地址:https://zhuanlan.zhihu.com/p/…

YOLO V3 网络架构

backbone:Darknet-53

网络结构解析:

  1. Yolov3 中,只有卷积层,通过调节卷积步长管制输入特色图的尺寸。所以对于输出图片尺寸没有特地限度。流程图中,输出图片以 256*256 作为样例。
  2. Yolov3 借鉴了金字塔特色图思维,小尺寸特色图用于检测大尺寸物体,而大尺寸特色图检测小尺寸物体。特色图的输入维度为 NxNx[3x(4+1+80)],NxN 为输入特色图格点数,一共 3 个 Anchor 框,每个框有 4 维预测框数值 tx,ty,tw,th,1 维预测框置信度,80 维物体类别数。所以第一层特色图的输入维度为 8x8x255。
  3. Yolov3 总共输入 3 个特色图,第一个特色图下采样 32 倍,第二个特色图下采样 16 倍,第三个下采样 8 倍。输出图像通过 Darknet-53(无全连贯层),再通过 Yoloblock 生成的特色图被当作两用,第一用为通过 3 3 卷积层、1 1 卷积之后生成特色图一,第二用为通过 1 * 1 卷积层加上采样层,与 Darnet-53 网络的中间层输入后果进行拼接,产生特色图二。同样的循环之后产生特色图三。
  4. concat 操作与加和操作的区别:加和操作来源于 ResNet 思维,将输出的特色图,与输入特色图对应维度进行相加,即 y=f(x)+x;而 concat 操作源于 DenseNet 网络的设计思路,将特色图依照通道维度间接进行拼接,例如 8 816 的特色图与 8 816 的特色图拼接后生成 8 832 的特色图。
  5. 上采样层 (upsample):作用是将小尺寸特色图通过插值等办法,生成大尺寸图像。例如应用最近邻插值算法,将 8 8 的图像变换为 1616。上采样层不扭转特色图的通道数。
    Yolo 的整个网络,汲取了 Resnet、Densenet、FPN 的精华,能够说是交融了指标检测以后业界最无效的全副技巧。

Loss 函数

  1. \(\lambda \) 为权重常数,管制检测框 Loss、obj 置信度 Loss、noobj 置信度 Loss 之间的比例,通常负例的个数是正例的几十倍以上,能够通过权重超参管制检测成果。
  2. \(1^{obj}_{ij} \) 若是正例则输入 1,否则为 0;\(1^{obj}_{ij} \) 若是负例则输入 1,否则为 0;疏忽样例都输入 0。
  3. x、y、w、h 应用 MSE 作为损失函数,也能够应用 smooth L1 loss(出自 Faster R-CNN)作为损失函数。smooth L1 能够使训练更加平滑。置信度、类别标签因为是 0,1 二分类,所以应用穿插熵作为损失函数。
正文完
 0