📚接上文。
首先创建供测试用的数据集合。
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C': np.random.randn(8),
'D': np.random.randn(8)})
df
df内容如下:
重点介绍pandas的分组功能,其实如果你熟悉sql就一定不会陌生。这是一种非常常见的操作。
分组功能理解起来的重点
1 按照某一条件分组
2 在满足条件的分组上进行相关操作
3 把结果组成新的结构
把df按照A列进行分组,然后在分组结果上执行sum操作,最后把合并完的结果输出。
df.groupby('A').sum()
输出
把df按照A,B列进行分组,然后在分组结果上执行sum操作,最后把合并完的结果输出。
df.groupby(['A', 'B']).sum()
输出