数据来源:和鲸社区
背景
从事数据分析职业的人员和想要转行的人员都想要在换工作的时候拿到更高的薪资,那么在最短的时间从什么方向努力对我们的帮助更大呢?为了解决这个问题,我从和鲸社区拿到一份拉钩网一部分关于上海数据分析师招聘的数据,希望能从数据中挖掘出一些对我们有帮助的信息。
数据情况
现有一个csv文件,共450条数据,包含9个字段。分别为:职位名称、详细链接 、工作地点 、薪资、公司名称、经验要求 、学历 、福利 、职位信息。
分析目的
根据常识,我们知道数据分析师的薪资与工作年限和学历密切相关,且大部分公司对分析师本身的技能有严格的要求,那么我们如果想拿到一份月薪XX元的分析师岗位需要具备什么样的条件呢?通过探究以下几个问题,我们或许能找到答案。
1、学历对分析师的薪资影响有多大?
2、工作年限对分析师的薪资影响有多大?
3、不同区域对分析师的影响有多大?
4、分析师岗位需要具备的基本技能是什么?
分析过程
a、数据清洗
数据预览如下:
将薪资按照平均值清洗成数值格式。并提取出职位中要求的相关技能,这里只提取Excel、sql、Python、tableau这些常见的技能要求。
代码如下:
import pandas
import re
import numpy as np
file=r'D:\python材料\机器学习\和鲸数据\拉勾网数据分析师职位数据\拉钩网招聘_关键词_数据分析_城市_上海.csv'
data=pandas.read_csv(file,encoding='utf8')
def jineng(dataframe):
string=str(dataframe).lower()
d=re.findall('sql|excel|tableau|python',string)
if len(set(d))==0 :
d=0
else :
d=str(set(d))
return d
data['salary_min']=data.薪资.apply(lambda x:int(x.lower().replace('k','').split('-')[0]))
data['salary_max']=data.薪资.apply(lambda x:int(x.lower().replace('k','').split('-')[1]))
data['salary_mean']=(data['salary_min']+data['salary_max'])/2
data['re']=0
data['re']=data['职位信息'].apply(jineng)
#统计对各个技能的需求量
for k in ['sql','excel','tableau','python'] :
data[k]=data['re'].apply(lambda x: 1 if k in str(x) else 0 )
data.head(10) #预览前十条数据
b、学历对分析师的薪资影响有多大?
因为数据中有一部分实习岗位,且实习岗位薪资较低,对整体结果会有影响,这里就把实习类岗位删除,只保留正式岗位。
代码如下:
data2=data[~data.职位名称.str.contains('实习')]
查看分析师岗位对各个学历的需求及个学历段的薪资:
print(data2.学历.value_counts())
#各学历段的需求量
本科 348
不限 33
硕士 29
大专 17
#本科占总需求量的比重
print(348/len(data2))
0.8149882903981265
从该数据样本看,数据分析师岗位对学历的要求没有那么高,本科的学历就可以满足大部分企业的要求。
c=pandas.pivot_table(data2,index='学历',values='salary_mean',aggfunc=[np.mean])
print(c)
c.plot(kind='bar')
salary_mean
学历
不限 20.121212
大专 16.705882
本科 21.803161
硕士 20.189655
这里本科生的平均薪资比硕士的平均薪资要高,与我们的常识相违背,可能是样本数量太小,导致这种随机误差出现。不过当我们把年限数据放进来之后,会发现研究生的薪资是要高于本科生的,后边会提到。
c、工作年限对分析师的薪资影响有多大?
d=pandas.pivot_table(data2,index='经验要求',values='salary_mean',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
d=d[d.index.isin(index_li)]
d.plot(kind='bar')
print(d)
salary_mean
经验要求
1-3年 17.072072
3-5年 22.121827
5-10年 31.918033
除了“1-3年、3-5年、5-10年”外,其他年限的数据量过小,统计出来不能反映真实情况,因此没进行统计。仅看年限的话,对薪资的影响程度远高于学历。并且三年、五年是两个分界点,达到三年和五年的界限后薪资普遍有一个跨越式增长(分别涨薪30%、40%)。所以达到这个时间点的小伙伴要有意识的衡量自己目前的薪资与市场的情况,来对比自己所处的水平。
那么达到一定年限后,是不是学历越高,薪资水平提升的越多呢。
c=pandas.pivot_table(data2,index='经验要求',values='salary_mean',columns='学历',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
c=c[c.index.isin(index_li)]
c.plot(kind='bar')
print(c)
学历 不限 大专 本科 硕士
经验要求
1-3年 20.000000 12.8000 16.967742 19.00
3-5年 23.615385 16.8125 22.048193 25.65
5-10年 27.750000 32.5000 31.946429 35.00
很明显,学历越高,在相同工作年限下薪资越高,这里主要对比本科与研究生的薪资差别,不过学历上的影响低于年限上的影响。且因为本文采用的数据样本较小,对真实情况的描述有偏差,下次选用更大的数据集进行分析。
d、不同区域对分析师的影响有多大?
area=pandas.pivot_table(data2,index='工作地点',values='salary_mean',aggfunc=[np.mean,len])
area.columns=['salary_mean','len']
area=area.sort_values(by='salary_mean',ascending=False)
print(area)
salary_mean len
工作地点
松江区 30.000000 1.0
青浦区 28.166667 3.0
虹口区 23.660000 25.0
闵行区 22.803030 33.0
浦东新区 22.600775 129.0
长宁区 21.436170 47.0
杨浦区 20.890625 32.0
黄浦区 20.444444 27.0
徐汇区 20.358025 81.0
静安区 19.578947 19.0
普陀区 18.392857 14.0
宝山区 16.500000 6.0
嘉定区 15.750000 2.0
闸北区 13.750000 8.0
#仅保留需求量在20次以上的区域
area1=area[area.len>=20]
print(area1)
#结果
salary_mean len
工作地点
虹口区 23.660000 25.0
闵行区 22.803030 33.0
浦东新区 22.600775 129.0
长宁区 21.436170 47.0
杨浦区 20.890625 32.0
黄浦区 20.444444 27.0
徐汇区 20.358025 81.0
不同区域间的薪资差别还是有的,考虑到房租因素,比较推荐在浦东新区找工作,薪资高且需求量大,房租比其他地方高出的部分小于工资增长的部分。
e、分析师岗位需要具备的基本技能是什么?
data_skill=data2[['学历','salary_mean','sql','excel','tableau','python']]
salary_cut=pandas.cut(data_skill['salary_mean'],bins=[0,5,10,15,20,25,30,35,80]) #根据薪资水平进行分段,以次查看不同薪资段的要求有没有不同
salary_cut.name='salary_cut'
result=pandas.concat([data_skill,salary_cut],axis=1) #分段完成
result=result[['sql','excel','tableau','python','salary_cut']]
result['salary_cut']=result['salary_cut'].apply(lambda x:str(x))
count=result['salary_cut'].value_counts()
pivot=pandas.pivot_table(result,index='salary_cut',aggfunc=[sum])
skill=pandas.concat([pivot,count],axis=1) #对数据做透视并求出各技能要求的数量
skill.columns=['excel','python','sql','tableau','sum'] #字段重命名
#处理后数据如下
index | excel | python | sql | tableau | sum |
---|---|---|---|---|---|
(0, 5] | 14 | 13 | 16 | 0 | 24 |
(5, 10] | 16 | 10 | 20 | 4 | 35 |
(10, 15] | 20 | 35 | 48 | 9 | 77 |
(15, 20] | 24 | 49 | 58 | 8 | 90 |
(20, 25] | 25 | 56 | 77 | 15 | 100 |
(25, 30] | 3 | 21 | 28 | 8 | 44 |
(30, 35] | 0 | 8 | 10 | 0 | 16 |
(35, 80] | 4 | 17 | 21 | 4 | 26 |
各项技能需求占比:
index | excel_rate | python_rate | sql_rate | tableau_rate |
---|---|---|---|---|
(0,5] | 58% | 54% | 67% | 0% |
(5,10] | 46% | 29% | 57% | 11% |
(10,15] | 26% | 45% | 62% | 12% |
(15,20] | 27% | 54% | 64% | 9% |
(20,25] | 25% | 56% | 77% | 15% |
(25,30] | 7% | 48% | 64% | 18% |
(30,35] | 0% | 50% | 63% | 0% |
(35,80] | 15% | 65% | 81% | 15% |
我们发现:
(1)在薪资较低的岗位(5-10K)对Excel技能要求较高,薪资越高的岗位对excel技能反而不强调了。结合实际看,这种情形是因为低级的分析师大多使用excel进行分析,虽然任职要求上要求有Python等技能,但不会也不影响实际工作。
(2)不管什么薪资段的分析师岗位,都要求分析师会使用Python与sql,但对sql的需求度要高于Python,因此各位小伙伴注意提升自己的sql技能。
(3)tableau这类工具仅有部分公司要求必须掌握,大家根据自己的情况进行学习。
分析结论
1、绝大部分分析师岗位都要求本科以上学历,少数还不限制学历,入门门槛并不是特别高,且学历越高薪资会越高。
2、分析师的工作年限对薪资影响巨大,且满3年、5年薪资会有一个巨大的提升。
3、在上海各个区之间分析师的薪资和需求量有明显差异,建议在黄浦新区找工作,薪资高、机会多。
4、技能方面,肯定会的越多越好,必须要熟练掌握的技能优先级excel > sql > python 。