pandas 数据操作
在数据分析中,经常需要从不同角度将数据集合合并后再进行分析。
pandas的groupby方法适合数据进行分组和处理,关于数据的分组,这里讲如何使用groupby方法进行执行分组
age,education.num,hours.perweek 分组
首先,将性别sex数据分组,对年龄age,在校年数,education.num,每周工作时间按照性别进行比较
grouped.mean()
可以看出在校年数,女性和男性基本一样,而每周工作时间,男性比女性都工作了6个小时时间
进行workclass 工作类型分组
可以看出self-emp-inc最高,而没有薪水的最低
进行workclass 工作类型多个列分组
根据职业类型和性别进行分组,对每周工作时间进行平均值分析
数据的合并
就是将多个数据合并为一个数据,
对不同workclass的每周工作的平均值进行合并
先求出不同工作类型的每周工作时间的平均值
需要将数据workclass_hours合并到Dataframe对象中,合并为一个列
merged=df.merge(workclass_hours,left_on='workclass',right_index=True,suffixes=('','_avg'))
下面将对合并的数据Dataframe对象merged的workclass,hours.perweek,hours.perweek_avg进行确认