数据处理-pandas

merge连接两个表

信用卡账单表=pd.merge(信用卡账单表,放款时间表,how='inner',on='用户标识')

data.groupby(["state","city"]).size() 可查看分组后的结果

显示这个group
还有求和、计数、均值等等

agg 对行或者列做汇总操作

对列操作:把行加起来/找所有行中最小的值

df.agg(['sum', 'min'])

对行操作:在不同的列上操作 比如把这一行的A,B,C三列相加或找出最小值

df.agg("mean", axis="columns")

官方例子:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html

groupby+agg连用

例:找出每个商店每天的营业额和营业数

df.groupby(["store_nbr","year","month","day"])["unit_sales].agg['sum','count']
agg 之后

groupby+agg之后的后续操作,因为分组之后索引是分组的,所以要恢复索引reset_index(),以及对列重命名rename(columns={' ':' ',' ':' '})

处理之后

多层列,multiindex,除掉第二层的索引

sale_store_level.columns = sale_store_level.columns.droplevel(1)

修改索引,以date为索引:set_index("date")

oil_data.set_index("date")

设置多个index

原图.png
df_2016.set_index(["store_nbr", "item_nbr", "date"])
按序排列后

unstack

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html
官方文档
level=0 表示从索引的第一个取了之后放在列上
level=-1 表示从最后开始取

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容