CIFAR10 数据集

CIFAR-10数据集由10类32x32的彩色图片组成，一共包含60000张图片，每一类包含6000图片。其中50000张图片作为训练集，10000张图片作为测试集。

CIFAR-10数据集被划分成了5个训练的batch和1个测试的batch，每个batch均包含10000张图片。测试集batch的图片是从每个类别中随机挑选的1000张图片组成的,训练集batch以随机的顺序包含剩下的50000张图片。不过一些训练集batch可能出现包含某一类图片比其他类的图片数量多的情况。训练集batch包含来自每一类的5000张图片，一共50000张训练图片。

batches.meta 程序中不需要使用该文件
data_batch_1 训练集的第一个batch，含有10000张图片
readme.html 网页文件，程序中不需要使用该文件
test_batch 测试集的batch，含有10000张图片

上述文件结构中，每一个batch文件包含一个python的字典（dict）结构，结构如下：

b’data’ 是一个10000x3072的array，每一行的元素组成了一个32x32的3通道图片，共10000张
b’labels’ 一个长度为10000的list，对应包含data中每一张图片的label
b’batch_label’ 这一份batch的名称
b’filenames’ 一个长度为10000的list，对应包含data中每一张图片的名称

在字典结构中，每一张图片是以被展开的形式存储（即一张32x32的3通道图片被展开成了3072长度的list），每一个数据的格式为uint8，前1024个数据表示红色通道，接下来的1024个数据表示绿色通道，最后的1024个通道表示蓝色通道。

CIFAR10 数据集

推荐阅读更多精彩内容