pandas提供了类似关系型数据库的二维表容器,并基于容器上提供了很多高效的函数。通用导入写法为:import pandas as pd
官网10分钟上手教程介绍得很好,基本上重要的内容都有介绍,并且对每个主题都提供进一步深入的文档链接,可以将该网页作为学习pandas的主目录。pandas主要提供了一个二维表的数据结构DataFrame,该表的每一列是一个Series对象。
DataFrame对象
构造入口:
df = pd.DataFrame( 二维数组 ) #通常传入的是numpy二维数据
df = pd.read_csv('file.csv', [index_col='A']) #读取csv文件
df =pd.to_csv('filename.csv',index=[True|False]) #存储到csv文件
查看数据
df.head( )
df.tail( )
df.describe( )
df.values #numpy格式的数据,不包括index。常用于转换到numpy
选择数据
- 直接方式
特定列:df['sun']
和df.sun
效果相同
特定行:df[0:10]
- 函数方式(推荐方法)
通过标签选择 df.loc[行index,列名]
通过位置选择 df.iloc[行下标,列下标]
处理缺失数据 NaN
提供了两种处理缺失值的方式
删除NaN所在行
df.dropna(how='any')
用某个值去替换
df.fillna(value=0)
Series对象
DataFrame的每一列是一个Series。
Series对象的函数较少直接使用,因为调 df.func() 时已经间接用到了。