深度学习目标检测系列：一文弄懂YOLO算法|附Python源码

共计 7622 个字符，预计需要花费 20 分钟才能阅读完成。

摘要：本文是目标检测系列文章——YOLO 算法，介绍其基本原理及实现细节，并用 python 实现，方便读者上手体验目标检测的乐趣。
在之前的文章中，介绍了计算机视觉领域中目标检测的相关方法——RCNN 系列算法原理，以及 Faster RCNN 的实现。这些算法面临的一个问题，不是端到端的模型，几个构件拼凑在一起组成整个检测系统，操作起来比较复杂，本文将介绍另外一个端到端的方法——YOLO 算法，该方法操作简便且仿真速度快，效果也不差。

YOLO 算法是什么？
YOLO 框架（You Only Look Once）与 RCNN 系列算法不一样，是以不同的方式处理对象检测。它将整个图像放在一个实例中，并预测这些框的边界框坐标和及所属类别概率。使用 YOLO 算法最大优的点是速度极快，每秒可处理 45 帧，也能够理解一般的对象表示。
YOLO 框架如何运作？
在本节中，将介绍 YOLO 用于检测给定图像中的对象的处理步骤。
首先，输入图像：

然后，YOLO 将输入图像划分为网格形式（例如 3 X 3）：

最后，对每个网格应用图像分类和定位处理，获得预测对象的边界框及其对应的类概率。
整个过程是不是很清晰，下面逐一详细介绍。首先需要将标记数据传递给模型以进行训练。假设已将图像划分为大小为 3 X 3 的网格，且总共只有 3 个类别，分别是行人（c1）、汽车（c2）和摩托车（c3）。因此，对于每个单元格，标签 y 将是一个八维向量：

其中：

pc 定义对象是否存在于网格中（存在的概率）；
bx、by、bh、bw 指定边界框；
c1、c2、c3 代表类别。如果检测对象是汽车，则 c2 位置处的值将为 1，c1 和 c3 处的值将为 0；

假设从上面的例子中选择第一个网格：

由于此网格中没有对象，因此 pc 将为零，此网格的 y 标签将为：

？意味着其它值是什么并不重要，因为网格中没有对象。下面举例另一个有车的网格（c2=1）：

在为此网格编写 y 标签之前，首先要了解 YOLO 如何确定网格中是否存在实际对象。大图中有两个物体（两辆车），因此 YOLO 将取这两个物体的中心点，物体将被分配到包含这些物体中心的网格中。中心点左侧网格的 y 标签会是这样的：

由于此网格中存在对象，因此 pc 将等于 1，bx、by、bh、bw 将相对于正在处理的特定网格单元计算。由于检测出的对象是汽车，所以 c2=1，c1 和 c3 均为 0。对于 9 个网格中的每一个单元格，都具有八维输出向量。最终的输出形状为 3X3X8。
使用上面的例子（输入图像：100X100X3，输出：3X3X8），模型将按如下方式进行训练：

使用经典的 CNN 网络构建模型，并进行模型训练。在测试阶段，将图像传递给模型，经过一次前向传播就得到输出 y。为了简单起见，使用 3X3 网格解释这一点，但通常在实际场景中会采用更大的网格（比如 19X19）。
即使一个对象跨越多个网格，它也只会被分配到其中点所在的单个网格。可以通过增加更多网格来减少多个对象出现在同一网格单元中的几率。
如何编码边界框？
如前所述，bx、by、bh 和 bw 是相对于正在处理的网格单元计算而言的。下面通过一个例子来说明这一点。以包含汽车的右边网格为例：

由于 bx、by、bh 和 bw 将仅相对于该网格计算。此网格的 y 标签将为：

由于这个网格中有一个对象汽车，所以 pc=1、c2=1。现在，看看如何决定 bx、by、bh 和 bw 的取值。在 YOLO 中，分配给所有网格的坐标都如下图所示：

bx、by 是对象相对于该网格的中心点的 x 和 y 坐标。在例子中，近似 bx=0.4 和 by=0.3：

bh 是边界框的高度与相应单元网格的高度之比，在例子中约为 0.9：bh=0.9，bw 是边界框的宽度与网格单元的宽度之比，bw=0.5。此网格的 y 标签将为：

请注意，bx 和 by 将始终介于 0 和 1 之间，因为中心点始终位于网格内，而在边界框的尺寸大于网格尺寸的情况下，bh 和 bw 可以大于 1。
非极大值抑制 |Non-Max Suppression
这里有一些思考的问题——如何判断预测的边界框是否是一个好结果（或一个坏结果）？单元格之间的交叉点，计算实际边界框和预测的边界框的并集交集。假设汽车的实际和预测边界框如下所示：

其中，红色框是实际的边界框，蓝色框是预测的边界框。如何判断它是否是一个好的预测呢？IoU 将计算这两个框的并集交叉区域：

IoU = 交叉面积 / 联合的面积；

在本例中：
IoU = 黄色面积 / 绿色面积；

如果 IoU 大于 0.5，就可以说预测足够好。0.5 是在这里采取的任意阈值，也可以根据具体问题进行更改。阈值越大，预测就越准确。
还有一种技术可以显着提高 YOLO 的效果——非极大值抑制。
对象检测算法最常见的问题之一是，它不是一次仅检测出一次对象，而可能获得多次检测结果。假设：

上图中，汽车不止一次被识别，那么如何判定边界框呢。非极大值抑可以解决这个问题，使得每个对象只能进行一次检测。下面了解该方法的工作原理。

1. 它首先查看与每次检测相关的概率并取最大的概率。在上图中，0.9 是最高概率，因此首先选择概率为 0.9 的方框：

2. 现在，它会查看图像中的所有其他框。与当前边界框较高的 IoU 的边界框将被抑制。因此，在示例中，0.6 和 0.7 概率的边界框将被抑制：

3. 在部分边界框被抑制后，它会从概率最高的所有边界框中选择下一个，在例子中为 0.8 的边界框：

4. 再次计算与该边界框相连边界框的 IoU，去掉较高 IoU 值的边界框：

5. 重复这些步骤，得到最后的边界框：

以上就是非极大值抑制的全部内容，总结一下关于非极大值抑制算法的要点：

丢弃概率小于或等于预定阈值（例如 0.5）的所有方框；
对于剩余的边界框：
选择具有最高概率的边界框并将其作为输出预测；
计算相关联的边界框的 IoU 值，舍去 IoU 大于阈值的边界框；
重复步骤 2，直到所有边界框都被视为输出预测或被舍弃；

Anchor Boxes
在上述内容中，每个网格只能识别一个对象。但是如果单个网格中有多个对象呢？这就行需要了解 Anchor Boxes 的概念。假设将下图按照 3X3 网格划分：

获取对象的中心点，并根据其位置将对象分配给相应的网格。在上面的示例中，两个对象的中心点位于同一网格中：

上述方法只会获得两个边界框其中的一个，但是如果使用 Anchor Boxes，可能会输出两个边界框！我们该怎么做呢？首先，预先定义两种不同的形状，称为 Anchor Boxes。对于每个网格将有两个输出。这里为了易于理解，这里选取两个 Anchor Boxes，也可以根据实际情况增加 Anchor Boxes 的数量：

没有 Anchor Boxes 的 YOLO 输出标签如下所示：

有 Anchor Boxes 的 YOLO 输出标签如下所示：

前 8 行属于 Anchor Boxes1，其余 8 行属于 Anchor Boxes2。基于边界框和框形状的相似性将对象分配给 Anchor Boxes。由于 Anchor Boxes1 的形状类似于人的边界框，后者将被分配给 Anchor Boxes1，并且车将被分配给 Anchor Boxes2. 在这种情况下的输出，将是 3X3X16 大小。
因此，对于每个网格，可以根据 Anchor Boxes 的数量检测两个或更多个对象。
结合思想
在本节中，首先介绍如何训练 YOLO 模型，然后是新的图像进行预测。
训练
训练模型时，输入数据是由图像及其相应的 y 标签构成。样例如下：

假设每个网格有两个 Anchor Boxes，并划分为 3X3 网格，并且有 3 个不同的类别。因此，相应的 y 标签具有 3X3X16 的形状。训练过程的完成方式就是将特定形状的图像映射到对应 3X3X16 大小的目标。
测试
对于每个网格，模型将预测·3X3X16·大小的输出。该预测中的 16 个值将与训练标签的格式相同。前 8 个值将对应于 Anchor Boxes1，其中第一个值将是该网络中对象的概率，2- 5 的值将是该对象的边界框坐标，最后三个值表明对象属于哪个类。以此类推。
最后，非极大值抑制方法将应用于预测框以获得每个对象的单个预测结果。
以下是 YOLO 算法遵循的确切维度和步骤：

准备对应的图像（608,608,3）;
将图像传递给卷积神经网络（CNN），该网络返回（19,19,5,85）维输出;

输出的最后两个维度被展平以获得（19,19,425）的输出量：

19×19 网格的每个单元返回 425 个数字;
425=5 * 85，其中 5 是每个网格的 Anchor Boxes 数量；
85= 5+80，其中 5 表示（pc、bx、by、bh、bw），80 是检测的类别数；

最后，使用 IoU 和非极大值抑制去除重叠框；

YOLO 算法实现
本节中用于实现 YOLO 的代码来自 Andrew NG 的 GitHub 存储库，需要下载此 zip 文件，其中包含运行此代码所需的预训练权重。
首先定义一些函数，这些函数将用来选择高于某个阈值的边界框，并对其应用非极大值抑制。首先，导入所需的库：
import os
import matplotlib.pyplot as plt
from matplotlib.pyplot import imshow
import scipy.io
import scipy.misc
import numpy as np
import pandas as pd
import PIL
import tensorflow as tf
from skimage.transform import resize
from keras import backend as K
from keras.layers import Input, Lambda, Conv2D
from keras.models import load_model, Model
from yolo_utils import read_classes, read_anchors, generate_colors, preprocess_image, draw_boxes, scale_boxes
from yad2k.models.keras_yolo import yolo_head, yolo_boxes_to_corners, preprocess_true_boxes, yolo_loss, yolo_body

%matplotlib inline
然后，实现基于概率和阈值过滤边界框的函数：
def yolo_filter_boxes(box_confidence, boxes, box_class_probs, threshold = .6):
box_scores = box_confidence*box_class_probs
box_classes = K.argmax(box_scores,-1)
box_class_scores = K.max(box_scores,-1)
filtering_mask = box_class_scores>threshold
scores = tf.boolean_mask(box_class_scores,filtering_mask)
boxes = tf.boolean_mask(boxes,filtering_mask)
classes = tf.boolean_mask(box_classes,filtering_mask)

return scores, boxes, classes
之后，实现计算 IoU 的函数：
def iou(box1, box2):
xi1 = max(box1[0],box2[0])
yi1 = max(box1[1],box2[1])
xi2 = min(box1[2],box2[2])
yi2 = min(box1[3],box2[3])
inter_area = (yi2-yi1)*(xi2-xi1)
box1_area = (box1[3]-box1[1])*(box1[2]-box1[0])
box2_area = (box2[3]-box2[1])*(box2[2]-box2[0])
union_area = box1_area+box2_area-inter_area
iou = inter_area/union_area

return iou
然后，实现非极大值抑制的函数：
def yolo_non_max_suppression(scores, boxes, classes, max_boxes = 10, iou_threshold = 0.5):
max_boxes_tensor = K.variable(max_boxes, dtype=’int32′)
K.get_session().run(tf.variables_initializer([max_boxes_tensor]))
nms_indices = tf.image.non_max_suppression(boxes,scores,max_boxes,iou_threshold)
scores = K.gather(scores,nms_indices)
boxes = K.gather(boxes,nms_indices)
classes = K.gather(classes,nms_indices)

return scores, boxes, classes
随机初始化下大小为（19,19,5,85）的输出向量：
yolo_outputs = (tf.random_normal([19, 19, 5, 1], mean=1, stddev=4, seed = 1),
tf.random_normal([19, 19, 5, 2], mean=1, stddev=4, seed = 1),
tf.random_normal([19, 19, 5, 2], mean=1, stddev=4, seed = 1),
tf.random_normal([19, 19, 5, 80], mean=1, stddev=4, seed = 1))
最后，实现一个将 CNN 的输出作为输入并返回被抑制的边界框的函数：
def yolo_eval(yolo_outputs, image_shape = (720., 1280.), max_boxes=10, score_threshold=.6, iou_threshold=.5):
box_confidence, box_xy, box_wh, box_class_probs = yolo_outputs
boxes = yolo_boxes_to_corners(box_xy, box_wh)
scores, boxes, classes = yolo_filter_boxes(box_confidence, boxes, box_class_probs, threshold = score_threshold)
boxes = scale_boxes(boxes, image_shape)
scores, boxes, classes = yolo_non_max_suppression(scores, boxes, classes, max_boxes, iou_threshold)

return scores, boxes, classes
使用 yolo_eval 函数对之前创建的随机输出向量进行预测：
scores, boxes, classes = yolo_eval(yolo_outputs)
with tf.Session() as test_b:
print(“scores[2] = ” + str(scores[2].eval()))
print(“boxes[2] = ” + str(boxes[2].eval()))
print(“classes[2] = ” + str(classes[2].eval()))

score 表示对象在图像中的可能性，boxes 返回检测到的对象的（x1，y1，x2，y2）坐标，classes 表示识别对象所属的类。现在，在新的图像上使用预训练的 YOLO 算法，看看其工作效果：
sess = K.get_session()
class_names = read_classes(“model_data/coco_classes.txt”)
anchors = read_anchors(“model_data/yolo_anchors.txt”)

yolo_model = load_model(“model_data/yolo.h5”)
在加载类别信息和预训练模型之后，使用上面定义的函数来获取·yolo_outputs·。
yolo_outputs = yolo_head(yolo_model.output, anchors, len(class_names))
之后，定义一个函数来预测边界框并在图像上标记边界框：
def predict(sess, image_file):
image, image_data = preprocess_image(“images/” + image_file, model_image_size = (608, 608))
out_scores, out_boxes, out_classes = sess.run([scores, boxes, classes], feed_dict={yolo_model.input: image_data, K.learning_phase(): 0})

print(‘Found {} boxes for {}’.format(len(out_boxes), image_file))

# Generate colors for drawing bounding boxes.
colors = generate_colors(class_names)

# Draw bounding boxes on the image file
draw_boxes(image, out_scores, out_boxes, out_classes, class_names, colors)

# Save the predicted bounding box on the image
image.save(os.path.join(“out”, image_file), quality=90)

# Display the results in the notebook
output_image = scipy.misc.imread(os.path.join(“out”, image_file))

plt.figure(figsize=(12,12))
imshow(output_image)

return out_scores, out_boxes, out_classes
接下来，将使用预测函数读取图像并进行预测：
img = plt.imread(‘images/img.jpg’)
image_shape = float(img.shape[0]), float(img.shape[1])
scores, boxes, classes = yolo_eval(yolo_outputs, image_shape)
最后，输出预测结果：
out_scores, out_boxes, out_classes = predict(sess, “img.jpg”)

以上就是 YOLO 算法的全部内容，更多详细内容可以关注 darknet 的官网。

本文作者：【方向】阅读原文
本文为云栖社区原创内容，未经允许不得转载。

深度学习目标检测系列：一文弄懂YOLO算法|附Python源码

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）