拉勾网数据岗位分析

从去年起,大数据的概念莫名其妙的就火起来了,淘宝智能推荐、阿尔法dog战败柯洁、滴滴杀熟、Facebook数据门等事件不断冲击着我们的思维。作为数据库开发岗的我每天处理最多就是各式各样的报表需求,几乎快成为了sql取数机。面对企业级的数据我觉得我能做的应该远远不止这些,应该要对这些数据负起责任,就萌生了数据分析岗位发展的想法,于是就有了如下的分析过程。

分析目的:

1、查看哪个城市对数据分析职位的需求最多

2、数据分析职位对学历的要求

3、数据分析职位的薪资情况

4、数据分析有哪些标签

一、数据初识

使用pandas载入数据,先引入数据处理相关的库

数据初步展示

载入完成后,对数据进行一个快速的浏览

数据综合信息

每个字段所代表的意思

city:城市

companyFullName:公司全名 companyId:公司ID

companyLabelList:公司介绍标签

companyShortName:公司简称

companySize:公司大小

businessZones:公司所在商区

firstType:职位所属一级类目 

secondType:职业所属二级类目

education:教育要求

industryField:公司所属领域 

positionId:职位ID

positionAdvantage:职位福利

positionName:职位名称 

positionLables:职位标签

salary:薪水

workYear:工作年限要求

数据总的有17个列字段,有6876行数据,其中companyLabelList、businessZones、firstType、secondType、positionLables都存在数据为空的情况。公司id和职位id为数字,其他都是字符串。

正常情况下,薪资、职位名称、城市、公司这几个字段是我们比较关注的,其中薪资这个字段的展示格式是字符串,不方便处理,后续我们需要对其进行数据处理,要拆成2列,并转成数值类型,才能进行计算。

数据特殊列

二、数据清洗

1、重复值处理

#查看是否有重复值,unique函数可以返回唯一值,数据集中positionId是职位ID,值唯一。#配合len函数计算出唯一值共有5031个,说明有多出来的重复值。len(laGouDf.positionId.unique())

去重后的数据

接下来,处理salary字段,将薪资拆分成2列,目的是算出下限和上限。

经过观察,薪资这列数据,有大写K,小写k,还有‘15k以上’这种类型的数据,k以上,对其做上下限相等的处理

这里需要用到pandas中的apply,它可以针对DataFrame中的一行或者一列数据进行操作,允许使用自定义函数。

def cut_word(word):    position = word.find('-') #找出“-”所在的位置    bottomSalary = word[:position-1] #切出薪资下限的数字字段    return bottomSalary#打印salary字段前5行查看laGouDf_dropduplicates.salary.apply(cut_word).head()

但是,对于“k以上”的数据,还没处理好,find函数会返回-1,如果按照原来的方式截取,是word[:-2],这就不是我想要的结果,所以需要加一个if判断。

def cut_word(word):    position = word.find('-') #找出“-”所在的位置    if position != -1:        bottomSalary = word[:position-1] #切出薪资下限的数字字段    else:        bottomSalary = word[:word.upper().find('K')]    return bottomSalary#打印salary字段前5行查看laGouDf_dropduplicates.salary.apply(cut_word).head(5)

如果find函数返回的不是-1,就按正常的方式截取;如果是-1,那就先把k转成大写的K,再截取K以前的数字,这样就能取得“K以上”的薪资数了,薪资上限的思路是类似的。薪资没有小数,因此转成int类型即可。

laGouDf_dropduplicates.bottomSalary = laGouDf_dropduplicates.bottomSalary.astype('int')laGouDf_dropduplicates.topSalary = laGouDf_dropduplicates.topSalary.astype('int')

接下来计算平均工资,使用lamdba作为一次性函数。

laGouDf_dropduplicates['avgSalary'] = laGouDf_dropduplicates.apply(lambda x:(x.bottomSalary                                                                              + x.topSalary)/2,axis=1)

数据清洗

针对想要分析的内容,数据已经清洗完成。

三、数据分析与图表可视化

选择我们需要的字段,先对数据做下描述统计

数据描述

可以看出工资的平均数在17.11,中位数是15.0,最大是75,最小是1.5,这可能是实习生,或者是随便输入的数据。标准差在8.99,说明数据分析的薪资范围大部分是在17+-8.99之间。


接下来统计下各个城市对数据分析岗位的需求情况,由图可以看出北京对数据分析师的需求对于其它城市有绝对性的优势。

各城市岗位数

接着,查看下平均工资的直方图,看下分布情况

平均薪资

可以看到薪资在15k左右是最多的。

再接着看不同城市、不同学历对薪资的影响。

城市对薪资的影响

从图中,可以看出,北京的薪资是高于其他城市的,尤其是中位数,比其他城市高不少,上海、深圳次之。厦门排在倒数第三,数据分析薪资比较没竞争力。

学历对薪资的影响

学历看,博士薪资最高。本科与硕士相差不大,大专学历比较低,优势不大。

工作经验对薪资的影响

按工作经验来看,10年以上经验薪资最高,薪资是随着工作年限增加,逐年递增的。有经验的数据分析师还是很吃香的,而且薪资增长也不错。

各城市不同等阶薪资占比

这里可以较为清晰的看到不同等级在不同地区的薪资占比。对每条数据进的平均薪资分为0-3、3-5、5-10、10-15、15-20、20-30、30-100七个等级来看,发现不管在哪个城市数据分析相关岗位的薪资也都在5-15K的范围最多。它比箱线图和直方图的好处在于,通过人工划分,具备业务含义。0~3是实习生的价位,3~6是刚毕业没有基础的新人,整理数据那种,6~10是有一定基础的,以此类推。

最后只剩下最后一列数据没有处理,标签数据,利用wordcloud库处理这列文本数据生成词云,空间位置最大的为出现频率最高的词汇。不难看出这些岗位最重要的标签是数据,负荷大数据时代的特征,各个公司也越来越重视数据的重要性。

数据标签词云

四、总结

1、北京对数据分析是需求最大的,上海、深圳次之且薪资也服从同样规律。

2、数据分析的薪资待遇还是挺不错的,尤其是有3-5年工作经验的数据分析师。

3、对于学历的要求,本科与硕士居多。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • 行走, 是把爱带入旅途, 携一抹夕阳, 路上, 好美的春光。 一株, 飘飞的蒲公英, 穿过长江与小溪, 飘越峰峦和...
    迪迪大魔王kd阅读 330评论 0 5
  • 你学习一般,考上了现在的这所学校,成绩不算好,拿不到奖学金,上课不听讲,上自习不规律,考试靠突击,同学帮一把的话也...
    笑而不语啊阅读 209评论 0 0