sklearn库中自带的标准数据集有:
前面有用到过的数据集说明:
(1)波士顿房价数据集(boston)包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上(如CART回归树)。
(2)鸢尾花数据集(Iris)是数据挖掘任务常用的一个数据集;鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题(如CART分类树)。
(3)手写数字数据集(digits)包括:1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度(如KNN算法识别手写体数字)。
(4)20 newsgroups数据集(fetch_20newsgroups)包括18846篇新闻文章,共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类(如多项式朴素贝叶斯算法对新闻分类)。
参考博文https://www.cnblogs.com/python-machine/p/6940578.html#autoid-0-0-4