本篇笔记为原书第九章节的内容。
- The GroupBy object
DataFrame数据进行分组操作
- df.groupby('col-name')
- groups_object.get_group('group-name')
-
groups_object.mean() # 一些统计操作子
对数据集进行分组操作
查看分组后数据情况:
-
len(groups) # 共分成多少个组别
-
groups.size() # 查看各组别数据量大小
组别对象数据结构的属性和方法
- groups # 返回各组别数据的索引值
- first() # 返回各组别里的第一条数据形成新数据
- last() # 返回各组别里最后一条数据形成新数据
- nth(n) # 返回各组别里第n-1条数据形成新数据
- head(n) # 返回各组数据的前n条数据
- tail(n)
-
get_group('group-name') # 取得某一组别数据
聚合操作
- sum()
- mean()
- get_group().loc[] # 取得某组里的某索引值下的数据
- max()
- min()
-
agg() # 对各列进行各种方式统计计算
自定义操作
多组别操作
多列进行联合分组取值操作,多列值组成的tuple
同样多组别也跟之前的数据一样有各种属性和操作方法,具体使用可百度或查阅手册。