机器学习中使用pands库处理结构化数据

问题描述

在机器学习中,需要做的第一件事情就是准备输入的数据,这些数据有来自于文本文件的,有来自于数据库的,有来自于网络网页的,格式五花八门,都不一样,为了方便后边的数据处理,我们首先需要格式化这些数据,让这些数据具有统一的格式。

结构化的平面文件

Color   Value
Red 1
Orange  2
Yellow  3
Green   4
Blue    5
Purple  6
Black   7
White   8

如上面的数据所示,结构化的数据,最开始的一行是title,表示每一列数据的意义,从第二行开始每一行都是一个有效的记录对象。

如何有效的的处理这些数据

使用python本身文件输入输出功能并不是非常智能,它把数据当作普通的文本一行一行的读取。并不能很智能的读取结构化的文本文件。
在机器学习中,padas库,是专门用来处理这些数据的。

如何用pandas库来处理这类结构化的数据

导入pandas库

import pandas as pd

具体运用

color_table = pd.read_table("colors.txt")
print(color_table)

输出结果

    Color  Value
0     Red      1
1  Orange      2
2  Yellow      3
3   Green      4
4    Blue      5
5  Purple      6
6   Black      7
7   White      8
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容