和鲸项目——上海分析师职位数据简析

数据来源:和鲸社区

背景

从事数据分析职业的人员和想要转行的人员都想要在换工作的时候拿到更高的薪资,那么在最短的时间从什么方向努力对我们的帮助更大呢?为了解决这个问题,我从和鲸社区拿到一份拉钩网一部分关于上海数据分析师招聘的数据,希望能从数据中挖掘出一些对我们有帮助的信息。

数据情况

现有一个csv文件,共450条数据,包含9个字段。分别为:职位名称、详细链接 、工作地点 、薪资、公司名称、经验要求 、学历 、福利 、职位信息。

分析目的

根据常识,我们知道数据分析师的薪资与工作年限和学历密切相关,且大部分公司对分析师本身的技能有严格的要求,那么我们如果想拿到一份月薪XX元的分析师岗位需要具备什么样的条件呢?通过探究以下几个问题,我们或许能找到答案。

1、学历对分析师的薪资影响有多大?

2、工作年限对分析师的薪资影响有多大?

3、不同区域对分析师的影响有多大?

4、分析师岗位需要具备的基本技能是什么?

分析过程

a、数据清洗

数据预览如下:

1.png

将薪资按照平均值清洗成数值格式。并提取出职位中要求的相关技能,这里只提取Excel、sql、Python、tableau这些常见的技能要求。

代码如下:

import pandas
import re
import numpy as np
file=r'D:\python材料\机器学习\和鲸数据\拉勾网数据分析师职位数据\拉钩网招聘_关键词_数据分析_城市_上海.csv'
data=pandas.read_csv(file,encoding='utf8')

def jineng(dataframe):
    string=str(dataframe).lower()
    d=re.findall('sql|excel|tableau|python',string)
    if len(set(d))==0 :
        d=0
    else :
        d=str(set(d))
    return d

data['salary_min']=data.薪资.apply(lambda x:int(x.lower().replace('k','').split('-')[0]))
data['salary_max']=data.薪资.apply(lambda x:int(x.lower().replace('k','').split('-')[1]))
data['salary_mean']=(data['salary_min']+data['salary_max'])/2

data['re']=0
data['re']=data['职位信息'].apply(jineng)

#统计对各个技能的需求量
for k in ['sql','excel','tableau','python'] :
    data[k]=data['re'].apply(lambda x: 1 if k in str(x) else 0 )
data.head(10) #预览前十条数据

b、学历对分析师的薪资影响有多大?

因为数据中有一部分实习岗位,且实习岗位薪资较低,对整体结果会有影响,这里就把实习类岗位删除,只保留正式岗位。

代码如下:

data2=data[~data.职位名称.str.contains('实习')]

查看分析师岗位对各个学历的需求及个学历段的薪资:

print(data2.学历.value_counts())
#各学历段的需求量
本科    348
不限     33
硕士     29
大专     17
#本科占总需求量的比重
print(348/len(data2))
0.8149882903981265

从该数据样本看,数据分析师岗位对学历的要求没有那么高,本科的学历就可以满足大部分企业的要求。

c=pandas.pivot_table(data2,index='学历',values='salary_mean',aggfunc=[np.mean])
print(c)
c.plot(kind='bar')

   salary_mean
学历            
不限   20.121212
大专   16.705882
本科   21.803161
硕士   20.189655
2.png

这里本科生的平均薪资比硕士的平均薪资要高,与我们的常识相违背,可能是样本数量太小,导致这种随机误差出现。不过当我们把年限数据放进来之后,会发现研究生的薪资是要高于本科生的,后边会提到。

c、工作年限对分析师的薪资影响有多大?

d=pandas.pivot_table(data2,index='经验要求',values='salary_mean',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
d=d[d.index.isin(index_li)]
d.plot(kind='bar')
print(d)

      salary_mean
经验要求             
1-3年    17.072072
3-5年    22.121827
5-10年   31.918033
3.png

​ 除了“1-3年、3-5年、5-10年”外,其他年限的数据量过小,统计出来不能反映真实情况,因此没进行统计。仅看年限的话,对薪资的影响程度远高于学历。并且三年、五年是两个分界点,达到三年和五年的界限后薪资普遍有一个跨越式增长(分别涨薪30%、40%)。所以达到这个时间点的小伙伴要有意识的衡量自己目前的薪资与市场的情况,来对比自己所处的水平。

​ 那么达到一定年限后,是不是学历越高,薪资水平提升的越多呢。

c=pandas.pivot_table(data2,index='经验要求',values='salary_mean',columns='学历',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
c=c[c.index.isin(index_li)]
c.plot(kind='bar')
print(c)
学历            不限       大专         本科     硕士
经验要求                                       
1-3年   20.000000  12.8000  16.967742  19.00
3-5年   23.615385  16.8125  22.048193  25.65
5-10年  27.750000  32.5000  31.946429  35.00
4.png

很明显,学历越高,在相同工作年限下薪资越高,这里主要对比本科与研究生的薪资差别,不过学历上的影响低于年限上的影响。且因为本文采用的数据样本较小,对真实情况的描述有偏差,下次选用更大的数据集进行分析。

d、不同区域对分析师的影响有多大?

area=pandas.pivot_table(data2,index='工作地点',values='salary_mean',aggfunc=[np.mean,len])
area.columns=['salary_mean','len']
area=area.sort_values(by='salary_mean',ascending=False)
print(area)
      salary_mean    len
工作地点                    
松江区     30.000000    1.0
青浦区     28.166667    3.0
虹口区     23.660000   25.0
闵行区     22.803030   33.0
浦东新区    22.600775  129.0
长宁区     21.436170   47.0
杨浦区     20.890625   32.0
黄浦区     20.444444   27.0
徐汇区     20.358025   81.0
静安区     19.578947   19.0
普陀区     18.392857   14.0
宝山区     16.500000    6.0
嘉定区     15.750000    2.0
闸北区     13.750000    8.0
#仅保留需求量在20次以上的区域
area1=area[area.len>=20]
print(area1)
#结果
salary_mean    len
工作地点                    
虹口区     23.660000   25.0
闵行区     22.803030   33.0
浦东新区    22.600775  129.0
长宁区     21.436170   47.0
杨浦区     20.890625   32.0
黄浦区     20.444444   27.0
徐汇区     20.358025   81.0

不同区域间的薪资差别还是有的,考虑到房租因素,比较推荐在浦东新区找工作,薪资高且需求量大,房租比其他地方高出的部分小于工资增长的部分。

e、分析师岗位需要具备的基本技能是什么?

data_skill=data2[['学历','salary_mean','sql','excel','tableau','python']]
salary_cut=pandas.cut(data_skill['salary_mean'],bins=[0,5,10,15,20,25,30,35,80]) #根据薪资水平进行分段,以次查看不同薪资段的要求有没有不同
salary_cut.name='salary_cut'
result=pandas.concat([data_skill,salary_cut],axis=1) #分段完成

result=result[['sql','excel','tableau','python','salary_cut']]
result['salary_cut']=result['salary_cut'].apply(lambda x:str(x))

count=result['salary_cut'].value_counts()
pivot=pandas.pivot_table(result,index='salary_cut',aggfunc=[sum])

skill=pandas.concat([pivot,count],axis=1)   #对数据做透视并求出各技能要求的数量
skill.columns=['excel','python','sql','tableau','sum'] #字段重命名
#处理后数据如下
index excel python sql tableau sum
(0, 5] 14 13 16 0 24
(5, 10] 16 10 20 4 35
(10, 15] 20 35 48 9 77
(15, 20] 24 49 58 8 90
(20, 25] 25 56 77 15 100
(25, 30] 3 21 28 8 44
(30, 35] 0 8 10 0 16
(35, 80] 4 17 21 4 26

各项技能需求占比:

index excel_rate python_rate sql_rate tableau_rate
(0,5] 58% 54% 67% 0%
(5,10] 46% 29% 57% 11%
(10,15] 26% 45% 62% 12%
(15,20] 27% 54% 64% 9%
(20,25] 25% 56% 77% 15%
(25,30] 7% 48% 64% 18%
(30,35] 0% 50% 63% 0%
(35,80] 15% 65% 81% 15%

我们发现:

(1)在薪资较低的岗位(5-10K)对Excel技能要求较高,薪资越高的岗位对excel技能反而不强调了。结合实际看,这种情形是因为低级的分析师大多使用excel进行分析,虽然任职要求上要求有Python等技能,但不会也不影响实际工作。

(2)不管什么薪资段的分析师岗位,都要求分析师会使用Python与sql,但对sql的需求度要高于Python,因此各位小伙伴注意提升自己的sql技能。

(3)tableau这类工具仅有部分公司要求必须掌握,大家根据自己的情况进行学习。

分析结论

1、绝大部分分析师岗位都要求本科以上学历,少数还不限制学历,入门门槛并不是特别高,且学历越高薪资会越高。

2、分析师的工作年限对薪资影响巨大,且满3年、5年薪资会有一个巨大的提升。

3、在上海各个区之间分析师的薪资和需求量有明显差异,建议在黄浦新区找工作,薪资高、机会多。

4、技能方面,肯定会的越多越好,必须要熟练掌握的技能优先级excel > sql > python 。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容