前面文章用Caltech数据制作成VOC形式,但在实际训练的时候仍然有挺多问题,所需文件如下。
主要是Annotations的问题,有如下几点需要注意:
-
1 Annotations中要包含所有图片的信息,即使对应图片中没有行人数据,但仍需要xml文件,即有多少张图片就有多少xml。
- 2 注意box的边界大小,Xmin,Xmax,Ymin,Ymax都需要注意,不要越界,否则会报错(可以在生成xml代码中就对这几个参数进行限幅),否则
assert (boxes[:, 2] >= boxes[:, 0]).all()
会报错。
数据集整理完毕,接下来便是修改参数: - 1.lib/networks/中VGGnet_test.py和VGGnet_train.py中
n_classes = 2
- 2.lib/datasets/pascal_voc.py
self._classes = ('__background__', 'person')
和tools/demo.py中CLASSES = ('__background__','person')
- 3.pascal_voc.py中
self._image_ext = '.png'
的修改。
搞了快一个星期,终于完工。