pandas.dataframe常用操作
选取数据
选取行名、列名、值
以标签(行、列的名字)为索引选择数据——x.loc[行标签,列标签]
以位置(第几行、第几列)为索引选择数据——x.iloc[行位置,列位置]
同时根据标签和位置选择数据——x.ix[行,列]
选择连续的多行多列——切片
选取不连续的某几行或者某几列
简便地获取行或者列
如何返回一个dataframe的单列或者单行
按条件选取数据——df[逻辑条件]
转置、排序
转置 df.T
按行名或者列名排序——df.sort_index
按行名或者列名排序——df.sort_index
增删行或者列
增加一列
增加一行
删除行或者列——df.drop
组建dataframe
组建方法——pd.DataFrame
用字典型数据组建——pd.DataFrame
简便地获得聚宽数列中的时间索引
缺失值处理
去掉缺失值——df.dropna
对缺失值进行填充——df.fillna
判断数据是否为确实——df.isnull
常用统计函数
describe 针对series或dataframe列计算汇总统计
count非na值得数量
min、max计算最小值和最大值
idxmin、idxmax计算能够获取到的最大值和最小值的索引值
quantile计算样本的分位数(0到1)
sum值的综合
mean值的平均数
median值的中位数
mad根据平均值计算平均绝对离差
var样本值的方差
std样本值的标准差
skew样本值的偏度(三阶矩)
kurt样本值的峰度(四阶矩)
cumsum样本值的累计和
cummin、cummax样本值的累计最大值和最小值
cumprod样本值的累计积
diff计算一阶差分
pct_change计算百分数变化
panel类型数据分解成dataframe
panel类型数据分解成dataframe方法
更多panel操作指南
研究内存取dataframe
把dataframe存成csv文件——df.to_csv()
读取被存成csv文件的dataframe——pd.read_csv()