机器学习中使用pands库处理结构化数据

问题描述

在机器学习中，需要做的第一件事情就是准备输入的数据，这些数据有来自于文本文件的，有来自于数据库的，有来自于网络网页的，格式五花八门，都不一样，为了方便后边的数据处理，我们首先需要格式化这些数据，让这些数据具有统一的格式。

结构化的平面文件

Color   Value
Red 1
Orange  2
Yellow  3
Green   4
Blue    5
Purple  6
Black   7
White   8

如上面的数据所示，结构化的数据，最开始的一行是title，表示每一列数据的意义，从第二行开始每一行都是一个有效的记录对象。

如何有效的的处理这些数据

使用python本身文件输入输出功能并不是非常智能，它把数据当作普通的文本一行一行的读取。并不能很智能的读取结构化的文本文件。
在机器学习中，padas库，是专门用来处理这些数据的。

如何用pandas库来处理这类结构化的数据

导入pandas库

import pandas as pd

具体运用

color_table = pd.read_table("colors.txt")
print(color_table)

输出结果

    Color  Value
0     Red      1
1  Orange      2
2  Yellow      3
3   Green      4
4    Blue      5
5  Purple      6
6   Black      7
7   White      8

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

机器学习中使用pands库处理结构化数据

机器学习中使用pands库处理结构化数据

问题描述

结构化的平面文件

如何有效的的处理这些数据

如何用pandas库来处理这类结构化的数据

导入pandas库

具体运用

输出结果

相关阅读更多精彩内容

友情链接更多精彩内容