介绍YOLO目标检测快速上手这篇文章我们通过简短的代码就实现了一个视频目标检测功能。本文将介绍如何使用其他数据集重新训练YOLO模型,文章将会详细介绍每一步。下载数据集我们将使用Pascal VOC数据集训练我们的模型,该数据集可以用来做图像分类、目标检测、图像分割。下载并解压文件后,我们介绍下相关文件的作用。“Annotations”文件夹:用于存放图片描述,文件格式为.xml,具体内容如下图所示:如图所示,文件保存了图片文件名,尺寸,标注,坐标,是否分割等信息。“ImageSets”文件夹:保存了不同用途的图片名字列表,文件格式是.txt。“layout”文件夹:保存具有人体部位的图片名字列表。“main”文件夹:保存用于图像物体识别的图片名字列表。“segmenttions”文件夹:保存用于图像分割的图片名字列表。因为本次项目使用“main”文件夹,所以我们再详细看下:文件夹一共有20个分类的文件,通过文件名字我想大家肯定也知道作用了。这里介绍下文件里的正负数代表正负样本,如:“JPEGImages”文件夹:保存全部图片源文件。这里我们要留意的是图片名字,以后我们在自己创建数据集的时候,最好也参考此命名方式。“SegmentationClass”,“SegmentationObject”保存用于图像分割的源图片,两者区别如图所示:创建标签标签的结构是四维分别是(“类别”,“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”),其实就是上面所说的图片xml文件中的内容。我们可以通过官方提供的python文件来执行此操作。# 获取py文件wget https://pjreddie.com/media/files/voc_label.py执行此文件之前留意下相关路径是否正确import xml.etree.ElementTree as ETimport pickleimport osfrom os import listdir, getcwdfrom os.path import joinsets=[(‘2007’, ’train’), (‘2007’, ‘val’), (‘2007’, ’test’)]classes = [“aeroplane”, “bicycle”, “bird”, “boat”, “bottle”, “bus”, “car”, “cat”, “chair”, “cow”, “diningtable”, “dog”, “horse”, “motorbike”, “person”, “pottedplant”, “sheep”, “sofa”, “train”, “tvmonitor”]def convert(size, box): dw = 1./size[0] dh = 1./size[1] x = (box[0] + box[1])/2.0 y = (box[2] + box[3])/2.0 w = box[1] - box[0] h = box[3] - box[2] x = xdw w = wdw y = ydh h = hdh return (x,y,w,h)def convert_annotation(year, image_id): in_file = open(‘VOCdevkit/VOC%s/Annotations/%s.xml’%(year, image_id)) out_file = open(‘VOCdevkit/VOC%s/labels/%s.txt’%(year, image_id), ‘w’) tree=ET.parse(in_file) root = tree.getroot() size = root.find(‘size’) w = int(size.find(‘width’).text) h = int(size.find(‘height’).text) for obj in root.iter(‘object’): difficult = obj.find(‘difficult’).text cls = obj.find(’name’).text if cls not in classes or int(difficult) == 1: continue cls_id = classes.index(cls) xmlbox = obj.find(‘bndbox’) b = (float(xmlbox.find(‘xmin’).text), float(xmlbox.find(‘xmax’).text), float(xmlbox.find(‘ymin’).text), float(xmlbox.find(‘ymax’).text)) bb = convert((w,h), b) out_file.write(str(cls_id) + " " + " “.join([str(a) for a in bb]) + ‘\n’)wd = getcwd()for year, image_set in sets: if not os.path.exists(‘VOCdevkit/VOC%s/labels/’%(year)): os.makedirs(‘VOCdevkit/VOC%s/labels/’%(year)) image_ids = open(‘VOCdevkit/VOC%s/ImageSets/Main/%s.txt’%(year, image_set)).read().strip().split() list_file = open(’%s_%s.txt’%(year, image_set), ‘w’) for image_id in image_ids: list_file.write(’%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg\n’%(wd, year, image_id)) convert_annotation(year, image_id) list_file.close()执行py文件:python voc_label.py执行成功后会生成一个label文件夹和三个txt文件,分别是“2007_train.txt”,“2007_test.txt”,“2007_val.txt”(我只下载了2007的数据集),文件保存的是对应功能的全部图片路径:label文件夹内文件格式:分别是:(“类别”,“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”)修改配置文件打开darknet/cfg/voc.data,修改“train”,“valid”文件路径。“classes”:数据集中图片分类数量。“train”:用于训练的图片数据集绝对路径。“valid”:用于验证的图片数据集绝对路径。“names”:数据集中图片分类名字,如:“dog”,“person”等。“backup”:模型训练完成后,权重文件保存路径。模型训练首先下载YOLOv3模型:wget https://pjreddie.com/media/files/darknet53.conv.74训练之前,我们先看下yolov3-voc.cfg文件里都是什么:[net]# Testing# batch=1# subdivisions=1 # 模型训练模式Training # batch_sizebatch=64# 用于进一步分割batch_size,分割后的batch_size大小为:batch_size/subdivisionssubdivisions=16# 模型输入图像宽width=416# 模型输入图像高height=416# 图像通道数channels=3# 使用带动量优化函数的动量参数momentum=0.9# 权重衰减率,用于防止过拟合decay=0.0005# 以下4项是通过改变图像角度,饱和度,曝光量,色调来生成更多样本,可用于防止过拟合angle=0saturation = 1.5exposure = 1.5hue=.1# 初始学习率learning_rate=0.001burn_in=1000# 迭代次数max_batches = 50200# 当迭代到40000,45000时更改学习率policy=stepssteps=40000,45000scales=.1,.1[convolutional]# BN标准化处理,可以通过改变数据分布,处理梯度过小问题,加快模型收敛batch_normalize=1# 输出特征大小filters=32# 卷积核大小3x3size=3# 卷积步长为1stride=1# pad为0,padding由 padding参数指定。如果pad为1,padding大小为size/2pad=1# 激活函数,和relu的区别是当输入值小于0时,输出不为0activation=leaky**。。。。。省略。。。。。。**[yolo]mask = 0,1,2# 预选框,可手动指定也可通过聚类学习得到anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326# 识别种类classes=20# 每个cell预测box数量,yolov1时只有一个num=9# 增加噪声jitter=.3ignore_thresh = .5truth_thresh = 1random=1执行训练:./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74训练完成后,权重文件保存在backup文件夹内。总结如果训练我们自己的数据,数据准备工作参考VOC数据集,在模型训练之前还要更改cfg/yolov3-voc.cfg文件,修改classes类别数量和filter数量,其中filter计算方式:3*(classes+1+4),然后训练即可。