数据分析实战1

                             用pandas进行数据分析实战

数据来源知乎秦路《用pandas进行数据分析实战》[知乎](https://zhuanlan.zhihu.com/p/27784143) ,主要内容是进行数据读取,数据概述,数据清洗和整理,分析和可视化。

首先用read_csv载入数据,查看数据信息。


根据positionId列检查是否有重复项用unique函数,用drop_duplicates函数删除重复项。



接下来加工salary薪资字段,目的是计算出薪资下限以及薪资上限。自定义cut_word函数,用pandas的apply函数将word_cut函数应用在salary列的所有行。


接下来求解平均薪资。计算平均薪资的时候出错,查看数据集信息才发现bottomSalary和topSalary的数据类型是object,是不能直接做数学运算的,

于是把以下这些列都强制转换为int类型astype('int')。

到此,数据清洗的部分完成。切选出我们想要的内容进行后续分析(大家可以选择更多数据)。

先对数据进行几个描述统计value_counts(),describe()


接下来用图表说话。用matplotlib包画图。


数据分析的一大思想是细分维度,现在观察不同城市、不同学历对薪资的影响。箱线图是最佳的观测方式。

图表的标签出了问题,出现了白框,主要是图表默认用英文字体,而这里的都是中文,导致了冲突。所以需要改用matplotlib。

从图上我们看到,北京的数据分析师薪资高于其他城市,尤其是中位数。上海和深圳稍次,广州甚至不如杭州。

从学历看,博士薪资遥遥领先,虽然在top区域不如本科和硕士,这点我们要后续分析。大专学历稍有弱势。

工作年限看,薪资的差距进一步拉大,毕业生和工作多年的不在一个梯度。

利用pandas的groupby函数进行多维度分析。以下按city列,针对不同城市进行了分组,调用groupby的count方法,返回的是不同城市的各列计数结果。

按城市和学历分组计算了平均薪资。


调用unstack方法,进行行列转置,这样看的就更清楚了。在不同城市中,博士学历最高的薪资在深圳,硕士学历最高的薪资在杭州。北京综合薪资最好。

接下来计算不同公司招聘的数据分析师数量,并且计算平均数。

接下来配合group by作图。


现在只剩下最后一列数据没有处理,标签数据。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。