1. pandas基础
1.1 载入数据及观察数据
-
载入数据
常用的为riead_csv,read_table
如果数据量太大,内存无法一次读取,可是设置chunksize参数的大小,分块读取
import pandas as pd data = pd.read_csv(path, chunksize = 1000, iterator = True) count = 0 for chunk in data: count += 1 if count == 1: chunk.to_csv('test1.csv',index = False) elif count>1 and count<1000: chunk.to_csv('test1.csv',index = False, mode = 'a',header = False) else: break pd.read_csv('test1.csv')
-
观察数据(数据类型都为DataFrame)
查看数据详细信息
data.info()
查看数据的前五行和后五行
data.head(5) data.tail(5)
查看数据是否为空
data.isnull()
-
保存数据
data.to_csv('test2.csv',encoding='utf-8')
1.2 两种数据结构
-
Series
由一组数据以及相对应的索引组成的类似一维数组的结构,索引在左,值在右
obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
-
DataFrame
是一个表格型的数据结构
data = {'state': ['Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2003],'pop': [1.5, 2.4, 2.9, 3.2]} obj = pd.DataFrame(data)
1.3具体操作
-
查看DataFrame数据每列的名称
data.columns
-
查看col列的值
data['col']
-
删除col列
del data['col']
-
隐藏col1,col2,col3列,如果想完全删除,可以使用添加inplace=True,覆盖原数据
data.drop(['col1','col2','col3'],axis=1) //data.drop(['col1','col2','col3'],axis=1,inplace=True)
-
显示第100行col1,col2列的数据
data.loc[[100],['col1','col2']]
-
loc和iloc的区别
使用行索引时用iloc,使用行标签时用loc
-
根据col列的值进行升序排序
data.sort_values(by='col',ascending=True)
-
查看数据的基本统计信息
data.describe()