-
df.describe()
:按各列返回基本统计量和分位数 -
df.count()
:计算非NA值的数量,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.max()
:计算最大值,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.min()
:计算最小值,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.sum()
:计算和,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.mean()
:计算平均值,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.median()
:计算中位数,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.var()
:计算方差,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.std()
:计算标准差,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.mad()
:根据平均值计算平均绝对偏差,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.cumsum()
:计算累计求和,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df.cov()
:计算协方差矩阵,axis=0 按列计算,axis=1 按行计算,默认axis=0。 -
df1.corrwith(df2)
:计算相关系数 -
df1['col1'].groupby(df1['col2'])
:列1 按照列2 分组,即列2为Key。 -
grouped.agg({ 'col1':'fun1' , 'col2':'fun2' })
:通过分组系列,还可以传递函数的列表或字典来进行聚合。对不同的列应用不同的函数的聚合,函数可以是多个。
示例数据集说明
接下来,我们将以如下数据集,分享各函数的使用方法。
df.describe()
按各列返回基本统计量和分位数。
df.count()
计算非NA值的数量,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.max()
计算最大值,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.min()
计算最小值,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.sum()
计算和,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.mean()
计算平均值,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.median()
计算中位数,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.var()
计算方差,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.std()
计算标准差,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.mad()
根据平均值计算平均绝对偏差,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.cumsum()
计算累计求和,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df.cov()
计算协方差矩阵,axis=0 按列计算,axis=1 按行计算,默认axis=0。
df1.corrwith(df2)
计算相关系数。
df1['col1'].groupby(df1['col2'])
列1 按照列2 分组,即列2为Key。
df.groupby('col1')
DataFrame按照列1分组。
grouped.agg(['fun1','fun2'])
根据多个函数聚合,表现成多列,函数名为列名。
grouped.agg({ 'col1':'fun1' , 'col2':'fun2' })
通过分组系列,还可以传递函数的列表或字典来进行聚合。对不同的列应用不同的函数的聚合,函数可以是多个。