33个机器学习常用数据集CV/NLP/贪心学院

33个æ�ºå�¨å­¦ä¹ 常ç�¨æ�°æ�®é��CV/NLP

若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks)

现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。

数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平 台里,急需人们做出整理。

少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的 人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了 「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名 称,如 MNIST、CIFAR 10 以及 Imagenet 等。

如果您在研究中使用了这些数据集,我们希望您记得引用原始论文(我们已经在表单中提供引用 链接);如果您将它们用作商业或教育项目的一部分,请考虑添加致谢文及数据集原链接。

我们之所以经常在教学中引用这些数据集,是因为它们就是学生们很有可能遇到的数据类型的绝佳例子,此外,学 生可以将自己的工作与引用这些数据集的学术成果进行对比,从而取得进步。此外,我们也会使用 Kaggle Competitions 数据集,Kaggle 的 public leaderboards 允许学生在世界最好的数据集里测试自己的模型,不过 Kaggle 数据集并不会在本次表单中出现。

图像分类领域

1)MNIST

经典的小型(28x28 像素)灰度手写数字数据集,开发于 20 世纪 90 年代,主要用于测试当时最复杂的模型;到 了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转 而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输 入通道,只需在通道轴中选取单个切片即可。

引文:http://yann.lecun.com/exdb/publis/index.html#lecun-98

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2)CIFAR10

10 个类别,多达 60000 张的 32x32 像素彩色图像(50000 张训练图像和 10000 张测试图像),平均每种类别 拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用

标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3)CIFAR100

与 CIFAR-10 类似,区别在于 CIFAR-100 拥有 100 种类别,每个类别包含 600 张图像(500 张训练图像和 100 张测试图像),然后这 100 个类别又被划分为 20 个超类。因此,数据集里的每张图像自带一个「精细」标签 (所属的类)和一个「粗略」标签(所属的超类)。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4)Caltech-UCSD Birds-200-2011

包含 200 种鸟类(主要为北美洲鸟类)照片的图像数据集,可用于图像识别工作。分类数量:200;图片数量: 11,788;平均每张图片含有的标注数量:15 个局部位置,312 个二进制属性,1 个边框框。

引文:http://vis-www.cs.umass.edu/bcnn/

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5)Caltech 101

包含 101 种物品类别的图像数据集,平均每个类别拥有 40—800 张图像,其中很大一部分类别的图像数量固为 50 张左右。每张图像的大小约为 300 x 200 像素。本数据集也可以用于目标检测定位。

引文:http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6)Oxford-IIIT Pet

包含 37 种宠物类别的图像数据集,每个类别约有 200 张图像。这些图像在比例、姿势以及光照方面有着丰富的 变化。本数据集也可以用于目标检测定位。

引文:http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7)Oxford 102 Flowers

包含 102 种花类的图像数据集(主要是一些英国常见的花类),每个类别包含 40—258 张图像。这些图像在比 例、姿势以及光照方面有着丰富的变化。

引文:http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8)Food-101

包含 101 种食品类别的图像数据集,共有 101,000 张图像,平均每个类别拥有 250 张测试图像和 750 张训练图 像。训练图像未经过数据清洗。所有图像都已经重新进行了尺寸缩放,最大边长达到了 512 像素。

引文:https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9)Stanford cars

包含 196 种汽车类别的图像数据集,共有 16,185 张图像,分别为 8,144 张训练图像和 8,041 张测试图像,每个 类别的图像类型比例基本上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

引文:https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

自然语言处理领域

1)IMDb Large Movie Review Dataset

用于情感二元分类的数据集,其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论,这些电 影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

引文:http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下载地址:https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2)Wikitext-103

超过 1 亿个语句的数据合集,全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模,当中 包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。

引文:https://arxiv.org/abs/1609.07843

下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3)Wikitext-2

Wikitext-103 的子集,主要用于测试小型数据集的语言模型训练效果。

引文:https://arxiv.org/abs/1609.07843

下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4)WMT 2015 French/English parallel texts

用于训练翻译模型的法语/英语平行文本,拥有超过 2000 万句法语与英语句子。本数据集由 Chris CallisonBurch 创建,他抓取了上百万个网页,然后通过一组简单的启发式算法将法语网址转换为英文网址,并默认这些 文档之间互为译文。

引文:https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下载地址:https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5)AG News

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。 每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6)Amazon reviews - Full

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论,数据集主要来源于斯坦福网络分析项 目(SNAP)。数据集的每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7)Amazon reviews - Polarity

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论,数据集主要来源于斯坦福网络分析项 目(SNAP)。该子集的每个情绪极性数据集分别包含 1,800,000 个训练样本和 200,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8)DBPedia ontology

来自 DBpedia 2014 的 14 个不重叠的分类的 40,000 个训练样本和 5,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9)Sogou news

2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10)Yahoo! Answers

来自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 数据集的 10 个主要分类数据。每个类 别分别包含 140,000 个训练样本和 5,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz

11)Yelp reviews - Full

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。每个评级分别包含 130,000 个训练样本和 10,000 个 测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz

12)Yelp reviews - Polarity

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。该子集中的不同极性分别包含 280,000 个 训练样本和 19,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz

目标检测定位

1)Camvid: Motion-based Segmentation and Recognition Dataset

700 张包含像素级别语义分割的图像分割数据集,每张图像都经过第二个人的检查和确认来确保数据的准确性。

引文:https://pdfs.semanticscholar.org/08f6/24f7ee5c3b05b1b604357fb1532241e208db.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz

2)PASCAL Visual Object Classes (VOC)

用于类识别的标准图像数据集——这里同时提供了 2007 与 2012 版本。2012 年的版本拥有 20 个类别。训练数 据的 11,530 张图像中包含了 27,450 个 ROI 注释对象和 6,929 个目标分割数据。

引文:http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz

COCO 数据集

目前最常用于图像检测定位的数据集应该要属 COCO 数据集(全称为 Common Objects in Context)。本文提 供 2017 版 COCO 数据集的所有文件,另外附带由 fast.ai 创建的子集数据集。我们可以从 COCO 数据集下载页 面(http://cocodataset.org/#download)获取每个 COCO 数据集的详情。fast.ai 创建的子集数据集包含五个 选定类别的所有图像,这五个选定类别分别为:椅子、沙发、电视遥控、书籍和花瓶。

fast.ai 创建的子集数据集:https://s3.amazonaws.com/fast-ai-coco/coco_sample.tgz

训练图像数据集:https://s3.amazonaws.com/fast-ai-coco/train2017.zip

验证图像数据集:https://s3.amazonaws.com/fast-ai-coco/val2017.zip

测试图像数据集:https://s3.amazonaws.com/fast-ai-coco/test2017.zip

未经标注的图像数据集:https://s3.amazonaws.com/fast-ai-coco/unlabeled2017.zip

测试图像数据集详情:https://s3.amazonaws.com/fast-ai-coco/image_info_test2017.zip

未经标注的图像数据集详情:https://s3.amazonaws.com/fast-ai-coco/image_info_unlabeled2017.zip

训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/annotations_trainval2017.zip

主体训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/stuff_annotations_trainval2017.zip

全景训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/panoptic_annotations_trainval2017.zip

本文作者:黄善清(仅供学习使用)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容