项目背景
上一篇爬取Boss数据直聘数据后,我们可以试着对这些数据进行分析并整理一些结论出来。我们的大致步骤如下:
- 清洗整理
- 确定分析目的与思路
- 进行数据分析
- 得出数据分析结论
分析思路
- 数据岗位基本就业情况:学历要求、工作经验要求、工作技能要求、薪资待遇、公司福利
- 学历要求:饼状图,学历要求的占比
- 工作经验要求:饼状图
- 工作技能要求:词云
- 薪资待遇:条形图
- 公司福利:词云,降序
- 工作经验要求:饼状图
- 工作技能要求:词云
- 薪资待遇:条形图
- 公司福利:词云,降序
- 了解影响薪资的关键因素,确定学习路线与技能树并进入合适公司做准备
- 学历与薪资散点图
- 工作经验要求与薪资散点图
- 工作技能要求 Top10 与薪资散点图
- 公司福利 Top10 与薪资散点图
代码与数据可视化
本次代码及数据可视化以 jupyter notebook 环境呈现。
- 读入Mongo数据并存入list中
- 将数据转为DataFrame并进行清洗处理
-
数据岗位基本就业情况数据可视化
-
学历要求
可以看到,重庆地区的数据岗学历要求比较低,本科占59%,甚至没有研究生、博士学历要求,在数据岗学历来说比较少见
由于分学历做出箱型图,’学历不限‘类别数据样本太少,不做分析。本科与大专学历相比,存在两个极大异常值,且四分位距明显较小,说明数据更加聚集。虽然上四分位数,大专要大于本科,但本科箱形图的方盒关于中位线对称,更符合标准正态分布。结论:
- 本科学历岗位薪资更加集中,更符合正态分布,岗位薪资更稳定
- 大专学历岗位薪资有明显分散性,薪资高低更具有偶然性
-
-
工作经验要求
学历要求方面,占比最高为'3—5年‘,为33%,’1—3年‘25.9%,对应届生与1年工作经验者来说合适的数据岗位数量较少。
薪资与工作经验呈明显的相关性。‘应届生’与‘工作时间一年内’两类数据样本太少,薪资也比较低。‘经验不限’类岗位离散性较大,薪资也处于中等,比较具有偶然性。
-
工作技能要求
使用BosonNLP的API进行关键词提取,绘制词云。发现技能方面,对于数据库相关技能有要求的岗位较多,
-
薪资待遇
数量最多的岗位是平均薪资为3.5k以及10.5,中位数岗位平均薪资为7k。整体岗位平均薪资为10.8k,与重庆市平均薪资4k相比,具有明显优势。
-
公司福利
公司福利的中五险一金、年终奖、股票期权等是最常见的福利,最少见的包括了加班补助以及带薪假期
公司福利的数量与薪资基本没有关系,看来通过招聘时公司许诺的福利来判断薪资基本行不通。