机器学习数据神器-UCI

很多人现在开始选择人工智能或者机器学习，但是让初学者发愁的是：我们怎么去获得大量的数据来进行学习了？下面介绍一个机器学习领域的数据神器

UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说，它就像一家商店。

它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年，加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站

image

全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志，它已被引用超过1000次，使其成为计算机科学中引用率最高的100篇“论文”之一。

每年UCI中都会引入新的数据集。在官网上还可以看到，最受欢迎的数据集

image

以iris数据集为例

image-20200115140038785

有时候我们并不想把数据从网上下载下来再进行使用，那么我们可以使用pandas库中的read_csv方法来实现，以鸢尾花iris数据为例

import pandas as pd
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
data.head()  # 前5行数据

image

上面的文件路径为http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

image

其他的数据集使用方法也是类似，只需要将文件路径改成相应的即可。

最后编辑于：2020.01.15 15:55:07

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。