一、数据集准备
我们做目标检测的深度学习时,大家都知道要有训练(train)集,验证(valid)集和测试(test)集,数据集的格式也有很多种,我们这里使用的是pascal_voc数据格式。如下图是voc2007数据集文件夹格式- Annotations文件夹
该文件下存放的是xml格式的标签文件,每个xml文件都对应于JPEGImages文件夹的一张图片。 - JPEGImages文件夹
该文件夹下存放的是数据集图片,包括训练和测试图片,一般都是jpg格式的照片,如果有必要的话可以将其他格式的照片转换成jpg或者用PNG格式,这个在后续会有提到 - ImageSets文件夹
该文件夹下存放了三个文件夹,分别是Layout、Main、Segmentation。在这里我们只用存放图像数据的Main文件夹,其他两个暂且不管。 - SegmentationClass文件和SegmentationObject文件。
这两个文件都是与图像分割相关,跟咱们这个没有太大关系,先不管。
1. Annotations文件夹
Annotations文件夹中存放的是xml格式的标签文件,每一个xml文件都对应于JPEGImages文件夹中的一张图片。xml文件的解析如下所示(这是我自己做的数据集的注释文件,想看原始的可以去下载PASCAL VOC2007原始数据集(http://host.robots.ox.ac.uk/pascal/VOC/voc2007/)):
<annotation>
<folder>faster-RCNN-test1</folder>
<filename>000001.jpg</filename> #文件名
<path>G:\UAV\faster-RCNN-test1\000001.jpg</path> #命名这个文件的文件夹名,不重要
<source> #图像来源,不重要
<database>Unknown</database>
</source>
<size> #图像尺寸,包括长、宽和通道数
<width>4608</width>
<height>3456</height>
<depth>3</depth>
</size>
<segmented>0</segmented> #是否用于分割,在目标识别中01无所谓
<object> #检测到的物体
<name>succulent_root</name> #物体类别
<pose>Unspecified</pose> #拍摄角度
<truncated>0</truncated> #是否被截断,0表示完整
<difficult>0</difficult> #目标是否难以识别,0表示容易识别
<bndbox> #bounding-box,包含左下角和右上角xy坐标
<xmin>2136</xmin>
<ymin>2031</ymin>
<xmax>2302</xmax>
<ymax>2207</ymax>
</bndbox>
</object>
<object> #检测到几个物体,其他与第一个物体同样
<name>pots</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>1844</xmin>
<ymin>1748</ymin>
<xmax>2547</xmax>
<ymax>2400</ymax>
</bndbox>
</object>
<object>
<name>tag</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>2719</xmin>
<ymin>1152</ymin>
<xmax>3743</xmax>
<ymax>1724</ymax>
</bndbox>
</object>
</annotation>
2. JPEGImages文件夹
- JPEGImages 内部存放了PASCAL VOC所提供的所有的图片,包括了训练图片、验证图片和测试图片
- 这些图像的像素尺寸大小不一,但是横向图的尺寸大约在500375左右,纵向图的尺寸大约在375500左右,基本不会偏差超过100。(在之后的训练中,第一步就是将这些图片都resize到300300或是500500,所有原始图片不能离这个标准过远。
3. ImageSets文件夹
ImageSets存放的是每一种类型的challenge对应的图像数据。
我们只需要准备三个文件夹即可,即刚才重点介绍的3个文件夹,Annotation,JPEGImages和ImageSets文件夹。
- 准备训练所需的图片,图片命名成VOC2007格式,这样可以免去许多麻烦,下面是一个批量重命名文件的代码:
import os
path = r'G:\\UAV\\faster-RCNN-test\\'
savedpath = r'G:\\UAV\\faster-RCNN-test1\\'
filelist = os.listdir(path)
for i in range(0 , len(filelist)):
input_img = path + filelist[i]
output_img = savedpath + '%06d' % (i + 1) + '.jpg'
print(input_img)
print(output_img)
os.rename(input_img , output_img)
- 对图片进行注释,我这里使用的是Windows10 + Anaconda + LabelImg来做的,具体做法参见我的另一篇简书(https://www.jianshu.com/p/bda8ea406498)
- 将数据集分隔成三部分分别用于faster-RCNN的训练,验证和测试,可以通过以下代码来实现:
import cv2
import os
import random
root = '/public/chenhx/Deep_learning_architecture/Faster-RCNN_TF/data/VOCdevkit/VOC2007/faster-RCNN-test1'
fp = open(root + '/'+'name_list.txt' , 'r')
fp_trainval = open(root + '/'+'trainval.txt', 'w')
fp_test = open(root + '/'+'test.txt', 'w')
fp_train = open(root + '/'+'train.txt', 'w')
fp_val = open(root + '/'+'val.txt', 'w')
filenames = fp.readlines()
for i in range(len(filenames)):
pic_name = filenames[i]
pic_name = pic_name.strip()
x = random.uniform(0, 1)
pic_info = pic_name.split('.')[0]
# this 0.5 represents 50% of the data as trainval data
if x >= 0.5:
fp_trainval.writelines(pic_info + '\n')
else:
fp_test.writelines(pic_info + '\n')
fp_trainval.close()
fp_test.close()
fp = open(root + '/' +'trainval.txt')
filenames = fp.readlines()
for i in range(len(filenames)):
pic_name = filenames[i]
pic_name = pic_name.strip()
pic_info = pic_name.split('.')[0]
x = random.uniform(0, 1)
# This 0.5 represents 50% of the trainval data as train data
if x >= 0.5:
fp_train.writelines(pic_info + '\n')
else:
fp_val.writelines(pic_info + '\n')
fp_train.close()
预训练模型、数据集的具体路径放在:
- Faster-RCNN_TF
- data
- VOCdevkit2007
- VOC2007
- JPEGImages
- Annotations
- ImageSets
- pretrain_model
- VGG_imagenet.npy