很多人现在开始选择人工智能或者机器学习,但是让初学者发愁的是:我们怎么去获得大量的数据来进行学习了?下面介绍一个机器学习领域的数据神器
UCI
介绍
UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说,它就像一家商店。
它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年,加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站
影响
全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志,它已被引用超过1000
次,使其成为计算机科学中引用率最高的100
篇“论文”之一。
数据
数据集
每年UCI
中都会引入新的数据集。在官网上还可以看到,最受欢迎的数据集
鸢尾花数据集
红酒数据集
数据集信息
以iris
数据集为例
数据大小
属性个数
是否存在缺失值
主要用途:分类
数据集的时间、日期等
数据使用
有时候我们并不想把数据从网上下载下来再进行使用,那么我们可以使用pandas
库中的read_csv
方法来实现,以鸢尾花iris
数据为例
import pandas as pd
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
data.head() # 前5行数据
上面的文件路径为http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
其他的数据集使用方法也是类似,只需要将文件路径改成相应的即可。