利用python数据分析之数据聚合与分组（七）

对数据集进行分组并对各组应用一个函数(聚合或者转换)，是数据分析工作重要环节。数据集准备好之后，就是计算分组统计或生成透视表。

pandas提供了一个灵活高效的groupby功能，可以对数据集进行切片、切块、摘要等操作。

本章内容：
根据一个或多个键(可以是函数，数组或DataFrame列名)拆分pandas对象。
计算分组统计摘要，如计数、平均值、标准差、或用户自定义函数。
对DataFrame的列应用各种各样的函数
应用组内转换或其他运算，如规格化、线性回归、排名、选取子集等
计算透视表或交叉表
执行分位数分析以及其他分组分析

9.1 Group By技术
分组运算的术语（split-apply-combine）拆分-应用-合并。
第一阶段，我们提供的键会把pandas对象（无论是Series，DataFrame）中的数据拆分为多组。拆分操作是在对象的特定轴上执行。
[图片上传中。。。（1）]
分组键可以有多种形式，且类型不必相同：
列表或数组，其长度与待分组的轴一样；
表示DataFrame某个列名的值；
字典或Series给出待分组轴上的值与分组之间的对应关系；
函数，用于处理索引或索引中的各个标签；

#访问data1，根据key1调用groupby

In [3]: import numpy as np
   ...: import pandas as pd
   ...: import matplotlib.pyplot as plt
   ...: from pandas import Series,DataFrame
   ...:

In [4]: df =DataFrame({'key1':list('aabba'),'key2':['one','two','one','two','one'],
   ...: 'data1':np.random.randn(5),'data2':np.random.randn(5)})

In [5]: df
Out[5]:
data1 data2 key1 key2
0 -0.713865 -0.508708 a one
1 -0.001112 -0.431989 a two
2 -1.845435 1.631306 b one
3 1.158896 -1.145442 b two
4 -0.555897 -2.520632 a one
#访问data1，并根据key1调用groupby
In [6]: grouped=df['data1'].groupby(df['key1'])

In [7]: grouped
Out[7]: <pandas.core.groupby.SeriesGroupBy object at 0x000000000A1ADA90>
#调用GroupBy的mean方法来计算分组平均值
In [8]: grouped.mean()
Out[8]: 
key1
a 0.03546
b -1.77451
Name: data1, dtype: float64

In [10]: means=df['data1'].groupby([df['key1'],df['key2']]).mean()

In [11]: means
Out[11]: 
key1 key2
a one 0.771713
 two -1.201122
b one -0.495424
 two 0.955653
Name: data1, dtype: float64

In [12]: means.unstack()
Out[12]: 
key2 one two
key1 
a 0.771713 -1.201122
b -0.495424 0.955653

In [14]: states=np.array(['Ohio','California','California','Ohio','Ohio'])

In [15]: yaers=np.array([2005,2005,2006,2005,2006])

In [16]: years=np.array([2005,2005,2006,2005,2006])

In [18]: df['data1'].groupby([states,years]).mean()
Out[18]: 
California 2005 -1.201122
 2006 -0.495424
Ohio 2005 0.606807
 2006 1.285464
Name: data1, dtype: float64
#将列名用作分组键
In [21]: df.groupby('key1').mean()
Out[21]: 
 data1 data2
key1 
a 0.114101 -0.572603
b 0.230114 -0.583885

In [22]: df.groupby(['key1','key2']).mean()
Out[22]: 
 data1 data2
key1 key2 
a one 0.771713 -0.444467
 two -1.201122 -0.828875
b one -0.495424 1.384597
 two 0.955653 -2.552366
#返回一个含有分组大小的Series
In [23]: df.groupby(['key1','key2']).size()
Out[23]: 
key1 key2
a one 2
 two 1
b one 1
 two 1
dtype: int64

9.1.2 对分组进行迭代

#产生一组二元元组
In [9]: for name,group in df.groupby('key1'):
 ...: print name
 ...: print group
 ...: 
a
 data1 data2 key1 key2
0 -0.713865 -0.508708 a one
1 -0.001112 -0.431989 a two
4 -0.555897 -2.520632 a one
b
 data1 data2 key1 key2
2 -1.845435 1.631306 b one
3 1.158896 -1.145442 b two
#元组的第一个元素将会由键值组成的元组
In [10]: for (k1,k2), group in df.groupby(['key1','key2']):
 ...: print k1,k2
 ...: print group
 ...: 
a one
 data1 data2 key1 key2
0 -0.713865 -0.508708 a one
4 -0.555897 -2.520632 a one
a two
 data1 data2 key1 key2
1 -0.001112 -0.431989 a two
b one
 data1 data2 key1 key2
2 -1.845435 1.631306 b one
b two
 data1 data2 key1 key2
3 1.158896 -1.145442 b two

#将这些数据片段做成一个字典
In [12]: pieces=dict(list(df.groupby('key1')))

In [13]: pieces['b']
Out[13]: 
 data1 data2 key1 key2
2 -1.845435 1.631306 b one
3 1.158896 -1.145442 b two

groupby默认是在axis=0上进行分组，通设置也可以在其他任何轴上进行分组

In [14]: df.dtypes
Out[14]: 
data1 float64
data2 float64
key1 object
key2 object
dtype: object

In [15]: groupbyed=df.groupby(df.dtypes,axis=1)

In [17]: grouped=df.groupby(df.dtypes,axis=1)

In [18]: dict(list(grouped))
Out[18]: 
{dtype('float64'): data1 data2
 0 -0.713865 -0.508708
 1 -0.001112 -0.431989
 2 -1.845435 1.631306
 3 1.158896 -1.145442
 4 -0.555897 -2.520632, dtype('O'): key1 key2
 0 a one
 1 a two
 2 b one
 3 b two
 4 a one}

9.1.3 选取一个或一组列

对于由DataFrame产生的GroupBy对象，如果用一个（单个字符串）或一组（字符串数组）列名对其进行索引，就能实现选取部分列进行聚合。

df.groupby('key1')['data1']
df.groupby('key1')['data2']

是以下代码的语法糖：

df['data1'].groupby(df['key1'])
df['data2'].groupby(df['key1'])

尤其对于大数据集，可能只需要对部分列进行聚合。
对于前面的出现的那个数据集，如果只需要计算data2列的平均值并以DataFrame的形式得到结果，我们可以写出：

In [2]: df =DataFrame({'key1':list('aabba'),'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

In [4]: df
Out[4]: 
 data1 data2 key1 key2
0 -0.119115 -1.660365 a one
1 -1.677104 1.664901 a two
2 -0.124288 0.991688 b one
3 -0.357859 -0.645814 b two
4 -0.627007 -0.340816 a one

In [5]: df.groupby(['key1','key2'])[['data2']].mean()
Out[5]: 
 data2
key1 key2 
a one -1.000590
 two 1.664901
b one 0.991688
 two -0.645814

这种索引操作所返回的对象是一个已分组的DataFrame（如果传入的是列表或数组）或已分组的Series（如果传入的是标量形式的单个列名）：

In [6]: s_grouped=df.groupby(['key1','key2'])['data2']

In [7]: s_grouped
Out[7]: <pandas.core.groupby.SeriesGroupBy object at 0x000000000B6345F8>

In [8]: s_grouped.mean()
Out[8]:
key1 key2
a one -1.000590
two 1.664901
b one 0.991688
two -0.645814
Name: data2, dtype: float64

9.1.4 通过字典或Series进行分组

除数组外，分组信息还可以以其他形式存在。

In [9]: people =DataFrame(np.random.randn(5,5),columns=['a','b','c','d','e'],index=['Joe','Steve','Wes','Jim','Travis'])

In [10]: people
Out[10]: 
 a b c d e
Joe 0.153422 -1.740001 -1.814139 0.358241 -0.130256
Steve -0.870311 1.199198 0.275245 0.160661 0.144324
Wes -0.298472 0.472300 1.070169 0.899584 2.011791
Jim -0.638032 -0.011376 0.685198 0.625192 1.335396
Travis -2.482942 1.661548 1.284279 -1.061266 -0.632708

#添加几个NA值
In [11]: people.ix[2:3,['b','c']]=np.nan

In [12]: people
Out[12]: 
 a b c d e
Joe 0.153422 -1.740001 -1.814139 0.358241 -0.130256
Steve -0.870311 1.199198 0.275245 0.160661 0.144324
Wes -0.298472 NaN NaN 0.899584 2.011791
Jim -0.638032 -0.011376 0.685198 0.625192 1.335396
Travis -2.482942 1.661548 1.284279 -1.061266 -0.632708

假设已知列的关系，并希望根据分组计算列的总和。

In [13]: mappings={'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'}

In [15]: by_column=people.groupby(mappings,axis=1)

In [16]: by_column
Out[16]: <pandas.core.groupby.DataFrameGroupBy object at 0x000000000B634D68>

In [17]: by_column.sum()
Out[17]: 
 blue red
Joe -1.455897 -1.716835
Steve 0.435906 0.473211
Wes 0.899584 1.713320
Jim 1.310389 0.685988
Travis 0.223013 -1.454102

Series也有着同样的功能，可以被看做是一个大的映射。

In [19]: map_series=Series(mappings)

In [20]: map_series
Out[20]: 
a red
b red
c blue
d blue
e red
f orange
dtype: object

In [22]: people.groupby(map_series,axis=1).count()
Out[22]: 
 blue red
Joe 2 3
Steve 2 3
Wes 1 2
Jim 2 3
Travis 2 3

9.1.5 通过函数进行分组

相较于字典或Series，python函数在定义分组映射问题上更有创意更为抽象。

任何被当做分组键的函数都会在各个索引值上被调用一次，其返回值就会被用作分组名称。

下面的例子是假设我们想根据人名的长度进行分组，虽然可以求取一个字符串的长度数组，但是其实仅仅传入len函数就可以了：

In [28]: people.groupby(len).sum()
Out[28]: 
 a b c d e
3 -0.783082 -1.751376 -1.128941 1.883017 3.216931
5 -0.870311 1.199198 0.275245 0.160661 0.144324
6 -2.482942 1.661548 1.284279 -1.061266 -0.632708

In [31]: key_list=['one','one','one','two','two']

In [32]: people.groupby([len,key_list]).min()
Out[32]: 
 a b c d e
3 one -0.298472 -1.740001 -1.814139 0.358241 -0.130256
 two -0.638032 -0.011376 0.685198 0.625192 1.335396
5 one -0.870311 1.199198 0.275245 0.160661 0.144324
6 two -2.482942 1.661548 1.284279 -1.061266 -0.632708

9.1.6 根据索引级别分组
层次化索引数据集最方便的地方就是在于能够根据索引级别禁止聚合。
如果实现该目的，通过level关键字传入级别编号或名称即可：

In [33]: columns=pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],[1,3,5,1,3]],names=['city','tenor'])

In [34]: hier_df=DataFrame(np.random.randn(4,5),columns=columns)

In [35]: columns
Out[35]: 
MultiIndex(levels=[[u'JP', u'US'], [1, 3, 5]],
 labels=[[1, 1, 1, 0, 0], [0, 1, 2, 0, 1]],
 names=[u'city', u'tenor'])

In [36]: hier_df=DataFrame(np.random.randn(4,5),columns=columns)

In [37]: hier_df
Out[37]: 
city US JP 
tenor 1 3 5 1 3
0 1.416009 -0.016826 1.498950 1.010254 1.757742
1 -0.528243 -1.113364 0.120569 0.209329 0.260765
2 0.540845 2.198479 -1.307002 -0.545171 -0.378676
3 -0.625421 -0.960389 -1.435062 1.851948 0.210522

In [38]: hier_df.groupby(level='city',axis=1).count()
Out[38]: 
city JP US
0 2 3
1 2 3
2 2 3
3 2 3

9.2 数据聚合
数据聚合指的是任何能够从发数组产生标量的值得数据转换过程。

In [1]: import numpy as np
   ...: import pandas as pd
   ...: import matplotlib.pyplot as plt
   ...: from pandas import Series,DataFrame
   ...:

In [2]: df =DataFrame({'key1':list('aabba'),'key2':['one','two','one','two','one'],
   ...: ...: 'data1':np.random.randn(5),'data2':np.random.randn(5)})

In [3]: df
Out[3]:
data1 data2 key1 key2
0 -1.828647 0.329238 a one
1 -0.639952 1.532362 a two
2 0.617105 0.906281 b one
3 1.443470 1.419738 b two
4 -2.031339 -0.649743 a one

In [4]: grouped = df.groupby('key1')

#quantile用于计算Series或DataFrame列的样本分位数
In [5]: grouped['data1'].quantile(0.9)
Out[5]:
key1
a -0.877691
b 1.360834
Name: data1, dtype: float64

#定义了一个函数，传入agg方法
In [6]: def peak_to_peak(arr):
   ...: return arr.max() -arr.min()

In [8]: grouped.agg(peak_to_peak)
Out[8]:
data1 data2
key1
a 1.391387 2.182105
b 0.826366 0.513457

In [9]: grouped.describe()
Out[9]:
data1 data2
key1
a count 3.000000 3.000000
mean -1.499979 0.403952
std 0.751669 1.092969
min -2.031339 -0.649743
25% -1.929993 -0.160253
50% -1.828647 0.329238
75% -1.234300 0.930800
max -0.639952 1.532362
b count 2.000000 2.000000
mean 1.030287 1.163010
std 0.584329 0.363069
min 0.617105 0.906281
25% 0.823696 1.034645
50% 1.030287 1.163010
75% 1.236879 1.291374
max 1.443470 1.419738

[图片上传中。。。（2）]

In [10]: tips = pd.read_csv(r"E:\python\pydata-book-master\ch08\tips.csv")

In [11]: tips[:4]
Out[11]:
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2

#添加“小费占总额的百分比”的列
In [12]: tips['tip_pct'] = tips['tip']/tips['total_bill']

In [13]: tips[:4]
Out[13]:
total_bill tip sex smoker day time size tip_pct
0 16.99 1.01 Female No Sun Dinner 2 0.059447
1 10.34 1.66 Male No Sun Dinner 3 0.160542
2 21.01 3.50 Male No Sun Dinner 3 0.166587
3 23.68 3.31 Male No Sun Dinner 2 0.139780

9.2.1面向列的多函数应用

对Series和DataFrame列的聚合运算就是使用aggregate（使用自定义函数）或者调研如mean，std之类的方法。

我们将继续上述数据集的例子，对不同的列使用不同的聚合函数。

In [14]: grouped = tips.groupby(['sex','smoker'])

In [19]: grouped_pct = grouped['tip_pct']

In [20]: grouped_pct.agg('mean')
Out[20]:
sex smoker
Female No 0.156921
 Yes 0.182150
Male No 0.160669
 Yes 0.152771
Name: tip_pct, dtype: float64

#如果传入一组函数名，数据集的列就会以相应的函数命名
In [24]: grouped_pct.agg(['mean','std',peak_to_peak])
Out[24]:
 mean std peak_to_peak
sex smoker 
Female No 0.156921 0.036421 0.195876
 Yes 0.182150 0.071595 0.360233
Male No 0.160669 0.041849 0.220186
 Yes 0.152771 0.090588 0.674707

#如果传入的是一个由（name，function）元组组成的列表，则各元组的第一个元素就会被用作数据#集的列名
In [27]: grouped_pct.agg([('foo','mean'),('bar',np.std)])
Out[27]:
 foo bar
sex smoker 
Female No 0.156921 0.036421
 Yes 0.182150 0.071595
Male No 0.160669 0.041849
 Yes 0.152771 0.090588

#对tip_pct 和 total_bill 列计算三个统计信息
In [27]: grouped_pct.agg([('foo','mean'),('bar',np.std)])
Out[27]:
foo bar
sex smoker
Female No 0.156921 0.036421
Yes 0.182150 0.071595
Male No 0.160669 0.041849
Yes 0.152771 0.090588
In [28]: function = ['count','mean','max']

In [29]: result = grouped['tip_pct','total_bill'].agg(function)

In [30]: result
Out[30]: 
 tip_pct total_bill 
 count mean max count mean max
sex smoker 
Female No 54 0.156921 0.252672 54 18.105185 35.83
 Yes 33 0.182150 0.416667 33 17.977879 44.30
Male No 97 0.160669 0.291990 97 19.791237 48.33
 Yes 60 0.152771 0.710345 60 22.284500 

In [31]: result['tip_pct']
Out[31]:
count mean max
sex smoker
Female No 54 0.156921 0.252672
Yes 33 0.182150 0.416667
Male No 97 0.160669 0.291990
Yes 60 0.152771 0.710345

9.2.2 以“无索引”的方式返回聚合数据

#传入as_index = False禁用聚合数据有唯一的分组键组成的索引
In [32]: tips.groupby(['sex','smoker'],as_index=False).mean()
Out[32]: 
 sex smoker total_bill tip size tip_pct
0 Female No 18.105185 2.773519 2.592593 0.156921
1 Female Yes 17.977879 2.931515 2.242424 0.182150
2 Male No 19.791237 3.113402 2.711340 0.160669
3 Male Yes 22.284500 3.051167 2.500000 0.152771

9.3 分组级运算和转换
聚合是分组运算的一个特例。它接受能够将一维数组简化的为标量值的函数。
下列是为数据集添加一个用于存放各索引分组平均值的列，先聚合再合并

In [33]: df
Out[33]: 
 data1 data2 key1 key2
0 -1.828647 0.329238 a one
1 -0.639952 1.532362 a two
2 0.617105 0.906281 b one
3 1.443470 1.419738 b two
4 -2.031339 -0.649743 a one

In [34]: k1_means = df.groupby('key1').mean().add_prefix('mean_')

In [35]: k1_means
Out[35]: 
 mean_data1 mean_data2
key1 
a -1.499979 0.403952
b 1.030287 1.163010

In [36]: pd.merge(df,k1_means,left_on = 'key1',right_index = True)
Out[36]: 
 data1 data2 key1 key2 mean_data1 mean_data2
0 -1.828647 0.329238 a one -1.499979 0.403952
1 -0.639952 1.532362 a two -1.499979 0.403952
4 -2.031339 -0.649743 a one -1.499979 0.403952
2 0.617105 0.906281 b one 1.030287 1.163010
3 1.443470 1.419738 b two 1.030287 1.163010

我们使用一下其他方法：

In [37]: key = ['one','two','one','two','one']

In [41]: people =DataFrame(np.random.randn(5,5),columns=['a','b','c','d','e'],index=['Joe','Steve','Wes','Jim','Travis'])

In [42]: people
Out[42]: 
 a b c d e
Joe -1.264617 -1.385894 0.146627 -1.225148 0.627616
Steve 0.880528 0.530060 0.453235 1.160768 -0.053416
Wes 1.033023 -0.859791 -0.629231 -1.094454 -2.073512
Jim 1.777919 -0.864824 -1.940994 -0.806969 0.504503
Travis -1.260144 -0.486910 1.180371 -0.214743 0.629261

In [43]: people.groupby(key).mean()
Out[43]: 
 a b c d e
one -0.497246 -0.910865 0.232589 -0.844782 -0.272212
two 1.329224 -0.167382 -0.743879 0.176899 0.225544

In [44]: people.groupby(key).transform(np.mean)
Out[44]: 
 a b c d e
Joe -0.497246 -0.910865 0.232589 -0.844782 -0.272212
Steve 1.329224 -0.167382 -0.743879 0.176899 0.225544
Wes -0.497246 -0.910865 0.232589 -0.844782 -0.272212
Jim 1.329224 -0.167382 -0.743879 0.176899 0.225544
Travis -0.497246 -0.910865 0.232589 -0.844782 -0.272212

In [45]: def demean(arr):
 ...: return arr-arr.mean()

In [46]: demeaned = people.groupby(key).transform(demean)

In [47]: demeaned
Out[47]: 
 a b c d e
Joe -0.767371 -0.475029 -0.085962 -0.380366 0.899828
Steve -0.448695 0.697442 1.197114 0.983868 -0.278960
Wes 1.530269 0.051074 -0.861820 -0.249672 -1.801300
Jim 0.448695 -0.697442 -1.197114 -0.983868 0.278960
Travis -0.762898 0.423955 0.947782 0.630038 0.901473

#检查一下demeaned现在的分组的平均值是否为0
In [48]: demeaned.groupby(key).mean()
Out[48]: 
 a b c d e
one 0.0 5.551115e-17 0.0 -1.480297e-16 0.0
two 0.0 0.000000e+00 0.0 0.000000e+00 0.0

9.3.1 apply：一般性的“拆分-应用-合并”
transform是一个严格的条件的特殊函数：传入的函数只能产生两种结果，要么产生一个可以广播的标量值，要么产生一个相同大小的结果数组。
apply会将待处理的对象拆分为多个片段，然后对各片段调用传入的函数，最后尝试将各个片段组合在一起。

假设我们想从小费那个数据集里面选出5个最高的tip_pct值。

#先排序，然后取其中最前面的5个
In [52]: def top(df,n=5,column = 'tip_pct'):
 ...: return df.sort_index(by=column)[-n:]

In [53]: top(tips,n=6)
__main__:2: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...)
Out[53]: 
 total_bill tip sex smoker day time size tip_pct
109 14.31 4.00 Female Yes Sat Dinner 2 0.279525
183 23.17 6.50 Male Yes Sun Dinner 4 0.280535
232 11.61 3.39 Male No Sat Dinner 2 0.291990
67 3.07 1.00 Female Yes Sat Dinner 1 0.325733
178 9.60 4.00 Female Yes Sun Dinner 2 0.416667
172 7.25 5.15 Male Yes Sun Dinner 2 0.710345

In [54]: tips.groupby('smoker').apply(top)
__main__:2: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...)
Out[54]: 
 total_bill tip sex smoker day time size tip_pct
smoker 
No 88 24.71 5.85 Male No Thur Lunch 2 0.236746
 185 20.69 5.00 Male No Sun Dinner 5 0.241663
 51 10.29 2.60 Female No Sun Dinner 2 0.252672
 149 7.51 2.00 Male No Thur Lunch 2 0.266312
 232 11.61 3.39 Male No Sat Dinner 2 0.291990
Yes 109 14.31 4.00 Female Yes Sat Dinner 2 0.279525
 183 23.17 6.50 Male Yes Sun Dinner 4 0.280535
 67 3.07 1.00 Female Yes Sat Dinner 1 0.325733
 178 9.60 4.00 Female Yes Sun Dinner 2 0.416667
 172 7.25 5.15 Male Yes Sun Dinner 2 0.710345

#加一点特殊条件
In [55]: tips.groupby(['smoker','day']).apply(top,n=1,column = 'total_bill')
__main__:2: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...)
Out[55]: 
 total_bill tip sex smoker day time size \
smoker day 
No Fri 94 22.75 3.25 Female No Fri Dinner 2 
 Sat 212 48.33 9.00 Male No Sat Dinner 4 
 Sun 156 48.17 5.00 Male No Sun Dinner 6 
 Thur 142 41.19 5.00 Male No Thur Lunch 5 
Yes Fri 95 40.17 4.73 Male Yes Fri Dinner 4 
 Sat 170 50.81 10.00 Male Yes Sat Dinner 3 
 Sun 182 45.35 3.50 Male Yes Sun Dinner 3 
 Thur 197 43.11 5.00 Female Yes Thur Lunch 4 

 tip_pct 
smoker day 
No Fri 94 0.142857 
 Sat 212 0.186220 
 Sun 156 0.103799 
 Thur 142 0.121389 
Yes Fri 95 0.117750 
 Sat 170 0.196812 
 Sun 182 0.077178 
 Thur 197 0.115982 

In [56]: result = tips.groupby('smoker')['tip_pct'].describe()

In [57]: result
Out[57]: 
smoker 
No count 151.000000
 mean 0.159328
 std 0.039910
 min 0.056797
 25% 0.136906
 50% 0.155625
 75% 0.185014
 max 0.291990
Yes count 93.000000
 mean 0.163196
 std 0.085119
 min 0.035638
 25% 0.106771
 50% 0.153846
 75% 0.195059
 max 0.710345
Name: tip_pct, dtype: float64

In [58]: result.unstack('smoker')
Out[58]: 
smoker No Yes
count 151.000000 93.000000
mean 0.159328 0.163196
std 0.039910 0.085119
min 0.056797 0.035638
25% 0.136906 0.106771
50% 0.155625 0.153846
75% 0.185014 0.195059
max 0.291990 0.710345

其实上述的describe方法，就相当于下面的代码：

f =lambda x: x.describe()
grouped.apply(f)

9.3.2 示例：用特定于分组的值来填充缺失值
有时候我们希望使用数据本身衍生出的值去填充NA值。

n [63]: from pandas import DataFrame,Series

In [64]: s = Series(np.random.randn(6))

#将其中几个值填充为NAN
In [65]: s[::2]=np.nan

In [66]: s
Out[66]:
0 NaN
1 -1.884394
2 NaN
3 0.379894
4 NaN
5 0.588869
dtype: float64

#使用fillna把S的平均值填充进去
In [67]: s.fillna(s.mean())
Out[67]:
0 -0.305210
1 -1.884394
2 -0.305210
3 0.379894
4 -0.305210
5 0.588869
dtype: float64

#根据不同的分组来填充不同的值
In [6]: states = ['Ohio','New York','Vermont','Florida','Oregon','Nevada','California','Idaho']

In [7]: group_key
Out[7]: ['East', 'East', 'East', 'East', 'West', 'West', 'West', 'West']

In [8]: data = Series(np.random.randn(8),index=states)

In [9]: data
Out[9]: 
Ohio -1.537801
New York 0.263208
Vermont 0.500445
Florida -0.255887
Oregon 0.867263
Nevada -0.620590
California 0.593747
Idaho 2.501651
dtype: float64

In [11]: data.groupby(group_key).mean()
Out[11]: 
East -0.257509
West 0.835518
dtype: float64

#用分组平均值去填充NA值
In [12]: fill_mean = lambda g:g.fillna(g.mean())

In [13]: data.groupby(group_key).apply(fill_mean)
Out[13]: 
Ohio -1.537801
New York 0.263208
Vermont 0.500445
Florida -0.255887
Oregon 0.867263
Nevada -0.620590
California 0.593747
Idaho 2.501651
dtype: float64

In [14]: fill_values = {'East':0.5,'West':-1}

In [15]: fill_func = lambda g:g.fillna(fill_values[g.name])

In [16]: fill_func
Out[16]: <function __main__.<lambda>>

In [19]: data.groupby(group_key).apply(fill_func)
Out[19]: 
Ohio -1.537801
New York 0.263208
Vermont 0.500445
Florida -0.255887
Oregon 0.867263
Nevada -0.620590
California 0.593747
Idaho 2.501651
dtype: float64

9.3.3 示例：分组加权平均数和相关系数
根据groupby的“拆分-应用-合并”范式，DataFrame的列雨列之间的或两个Series之间的运算成为一种标准作业。

In [29]: df = DataFrame({'category':['a','a','a','a','b','b','b','b'],'data':np.random.randn(8),'weights':np.random.rand(8)})

In [30]: df
Out[30]: 
 category data weights
0 a 0.352124 0.131472
1 a -1.340416 0.605210
2 a -0.486105 0.835266
3 a 0.172995 0.013656
4 b 0.897209 0.879197
5 b 0.955620 0.414658
6 b -0.779258 0.850658
7 b -0.193639 0.738796

In [31]: grouped = df.groupby('category')

In [34]: get_wavg = lambda g: np.average(g['data'],weights = g['weights'])

In [35]: grouped.apply(get_wavg)
Out[35]: 
category
a -0.737008
b 0.131494
dtype: float64

#读取一个雅虎的数据集
In [55]: close_px = pd.read_csv(r'E:\python\pydata-book-master\ch09\stock_px.csv',parse_dates = True,index_col = 0)

In [56]: close_px[-4:]
Out[56]: 
 AAPL MSFT XOM SPX
2011-10-11 400.29 27.00 76.27 1195.54
2011-10-12 402.19 26.96 77.16 1207.25
2011-10-13 408.43 27.18 76.37 1203.66
2011-10-14 422.00 27.27 78.11 1224.58

In [57]: close_px[:4]
Out[57]: 
 AAPL MSFT XOM SPX
2003-01-02 7.40 21.11 29.22 909.03
2003-01-03 7.45 21.14 29.24 908.59
2003-01-06 7.45 21.52 29.96 929.01
2003-01-07 7.43 21.93 28.95 922.93

#计算一个由日收益率与SPX之间的年度相关系数组成的DataFrame
In [58]: rets = close_px.pct_change().dropna()

In [59]: spx_corr = lambda x: x.corrwith(x['SPX'])

In [60]: by_year = rets.groupby(lambda x: x.year)

In [61]: by_year.apply(spx_corr)
Out[61]: 
 AAPL MSFT XOM SPX
2003 0.541124 0.745174 0.661265 1.0
2004 0.374283 0.588531 0.557742 1.0
2005 0.467540 0.562374 0.631010 1.0
2006 0.428267 0.406126 0.518514 1.0
2007 0.508118 0.658770 0.786264 1.0
2008 0.681434 0.804626 0.828303 1.0
2009 0.707103 0.654902 0.797921 1.0
2010 0.710105 0.730118 0.839057 1.0
2011 0.691931 0.800996 0.859975 1.0

In [65]: by_year.apply(lambda g:g['AAPL'].corr(g['MSFT']))
Out[65]: 
2003 0.480868
2004 0.259024
2005 0.300093
2006 0.161735
2007 0.417738
2008 0.611901
2009 0.432738
2010 0.571946
2011 0.581987
dtype: float64

9.3.4 示例：面向分组的线性回归
定义一个regress函数，对各数据块执行一个普通的最小二乘法（OLS）回归。

In [66]: import statsmodels.api as sm

In [67]: def regress(data,yvar,xvar):
 ...: Y = data[yvar]
 ...: X = data[xvar]
 ...: X['intercept'] = 1
 ...: result = sm.OLS(Y,X).fit()
 ...: return result.params
 ...: 

#计算AAPL对SPX收益率的线性回归
In [68]: by_year.apply(regress,'AAPL',['SPX'])
Out[68]: 
 SPX intercept
2003 1.195406 0.000710
2004 1.363463 0.004201
2005 1.766415 0.003246
2006 1.645496 0.000080
2007 1.198761 0.003438
2008 0.968016 -0.001110
2009 0.879103 0.002954
2010 1.052608 0.001261
2011 0.806605 0.001514

9.4 透视表和交叉表

透视表(pivot table)是由各种电子表格程序和其他数据分析软件一种常见的数据汇总工具。

In [3]: tips = pd.read_csv(r"E:\python\pydata-book-master\ch08\tips.csv")

In [5]: tips[:4]
Out[5]: 
 total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2

In [6]: tips.pivot_table(rows=['sex','smoker'])
Traceback (most recent call last):

File "<ipython-input-4-de5618d53e2d>", line 1, in <module>
tips.pivot_table(rows=['sex','smoker'])

TypeError: pivot_table() got an unexpected keyword argument 'rows'

查了有关资料，将rows改成index，cols写成全名”columns”:

In [8]: tips.pivot_table(index=['sex','smoker'])
Out[8]: 
 size tip total_bill
sex smoker 
Female No 2.592593 2.773519 18.105185
 Yes 2.242424 2.931515 17.977879
Male No 2.711340 3.113402 19.791237
 Yes 2.500000 3.051167 22.284500

In [14]: tips.pivot_table(['tip_pct','size'],index = ['sex','day'],columns = 'smoker')
Out[14]: 
 tip_pct size 
smoker No Yes No Yes
sex day 
Female Fri 0.165296 0.209129 2.500000 2.000000
 Sat 0.147993 0.163817 2.307692 2.200000
 Sun 0.165710 0.237075 3.071429 2.500000
 Thur 0.155971 0.163073 2.480000 2.428571
Male Fri 0.138005 0.144730 2.000000 2.125000
 Sat 0.162132 0.139067 2.656250 2.629630
 Sun 0.158291 0.173964 2.883721 2.600000
 Thur 0.165706 0.164417 2.500000 2.300000

#传入margins = True作为分项的一个汇总
In [15]: tips.pivot_table(['tip_pct','size'],index = ['sex','day'],columns = 'smoker',margins = True)
Out[15]: 
 tip_pct size 
smoker No Yes All No Yes All
sex day 
Female Fri 0.165296 0.209129 0.199388 2.500000 2.000000 2.111111
 Sat 0.147993 0.163817 0.156470 2.307692 2.200000 2.250000
 Sun 0.165710 0.237075 0.181569 3.071429 2.500000 2.944444
 Thur 0.155971 0.163073 0.157525 2.480000 2.428571 2.468750
Male Fri 0.138005 0.144730 0.143385 2.000000 2.125000 2.100000
 Sat 0.162132 0.139067 0.151577 2.656250 2.629630 2.644068
 Sun 0.158291 0.173964 0.162344 2.883721 2.600000 2.810345
 Thur 0.165706 0.164417 0.165276 2.500000 2.300000 2.433333
All 0.159328 0.163196 0.160803 2.668874 2.408602 2.569672

#使用len可以得到有关分组大小的交叉表
In [17]: tips.pivot_table('tip_pct',index = ['sex','smoker'],columns='day',aggfunc = len,margins = True)
Out[17]: 
day Fri Sat Sun Thur All
sex smoker 
Female No 2.0 13.0 14.0 25.0 54.0
 Yes 7.0 15.0 4.0 7.0 33.0
Male No 2.0 32.0 43.0 20.0 97.0
 Yes 8.0 27.0 15.0 10.0 60.0
All 19.0 87.0 76.0 62.0 244.0

#如果有空值NA，我们设置fill_value = 0
In [19]: tips.pivot_table('size',index=['time','sex','smoker'],columns='day',aggfunc='sum',fill_value = 0)
Out[19]: 
day Fri Sat Sun Thur
time sex smoker 
Dinner Female No 2 30 43 2
 Yes 8 33 10 0
 Male No 4 85 124 0
 Yes 12 71 39 0
Lunch Female No 3 0 0 60
 Yes 6 0 0 17
 Male No 0 0 0 50
 Yes 5 0 0 23

[图片上传中。。。（3）]

9.5 交叉表：crosstab
交叉表是一种计算频率的特殊透视表。

In [20]: pd.crosstab([tips.time,tips.day],tips.smoker,margins=True)
Out[20]: 
smoker No Yes All
time day 
Dinner Fri 3 9 12
 Sat 45 42 87
 Sun 57 19 76
 Thur 1 0 1
Lunch Fri 1 6 7
 Thur 44 17 61
All 151 93 244

利用python数据分析之数据聚合与分组（七）

利用python数据分析之数据聚合与分组（七）

相关阅读更多精彩内容

友情链接更多精彩内容