上一节《Pandas入门5 -- DataFrame基本操作1》
本节主要介绍DataFrame的常用属性、方法和运算
首先,准备数据。若能直接下载google pandas教程中的数据,请直接使用
https://storage.googleapis.com/mledu-datasets/california_housing_train.csv
如无法下载,请到百度文库下载,然后把文件后缀名改为.csv
https://wenku.baidu.com/view/3446e2b9d1d233d4b14e852458fb770bf68a3b52
california_housing_train.csv 是一个含有17000条 california 房屋价格数据的文件,用excel打开,如下图所示:
如Pandas入门4 -- DataFrame类及创建一节所述,DataFrame类特别适合用于存储和处理这种二维表格形式的数据,基本包含了处理二维表格数据所需要的数据结构、方法和属性
直接看一大堆数据(例如,17000条数据或更多),看不出什么名堂;数据可视化(Visualization),可以协助挖掘了解这大堆数据的特征。
首先,使用pandas.read_csv()从文件读取数据,然后用DataFrame.describe()获得数据摘要信息;用DataFrame.head(n=5)和 DataFrame.tail(n=5)获得头n行和尾n行的数据,n默认值为5;如下所示:
机器学习中,Panda常见操作汇总,如下图所示: