深度学习系列-数据集介绍

MNIST

深度学习领域的“Hello World!”，入门必备!MNIST是一个手写数字数据库，它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28*28。此数据集是以二进制存储的，不能直接以图像格式查看，不过很容易找到将其转换成图像格式的工具。

最早的深度卷积网络LeNet便是针对此数据集的，当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程，其中Tensorflow关于MNIST的教程非常详细

CIFAR-10&CIFAR-100

CIFAR-10包含10个类别，50,000个训练图像，彩色图像大小：32x32，10,000个测试图像。

（类别：airplane，automobile, bird, cat, deer, dog, frog, horse, ship, truck）

（作者：Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton）

（数据格式：Python版本、Matlab版本、二进制版本）

CIFAR-100与CIFAR-10类似，包含100个类，每类有600张图片，其中500张用于训练，100张用于测试；这100个类分组成20个超类。每个图像有一个"find" label和一个"coarse"label。

图像分类结果及对应的论文

图像分类结果及应的论文，包含数据集：MNIST、CIFAR-10、CIFAR-100、STL-10、SVHN、ILSVRC2012 task 1

ILSVRC： ImageNet Large Scale Visual Recognition Challenge, 内含历年比赛结果

ImageNet

ImageNet数据集有1400多万幅图片，涵盖2万多个类别。其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，相关信息如下：

1）Total number of non-empty synsets: 21841

2）Total number of images: 14,197,122

3）Number of images with bounding box annotations: 1,034,908

4）Number of synsets with SIFT features: 1000

5）Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

COCO

COCO(Common Objects in Context)是一个新的图像识别、分割、和字幕数据集，它有如下特点：

1）Object segmentation

2）Recognition in Context

3）Multiple objects per image

4）More than 300,000 images

5）More than 2 Million instances

6）80 object categories

7）5 captions per image

8）Keypoints on 100,000 people

COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集.

PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

3D数据

1）RGB-D People Dataset

2）NYU Hand Pose Dataset code

3）Human3.6M(3D Human Pose Dataset)

《Iterated Second-Order Label Sensitive Pooling for 3D Human Pose Estimation》

人脸Dataset

LFW(Labeled Faces in the Wild)

Stereo Datasets

2）Middlebury Stereo Datasets

3）KITTI Vision Benchmark Suite

普林斯顿大学人工智能自动驾驶汽车项目

1）Deep Drive