通过本次文章你能够得到什么
能得到什么:
1、了解Excel数据分析的入门操作流程;
2、免费获得一份原始数据样本,可供实操;
3、遵循文章操作方法,半天可完成一次数据分析演练,文章相应的操作都可以再网上查到;
不能得到什么:看完文章,即入门数据分析。
适合人群:对数据分析感兴趣,熟悉excel常用功能的伙伴;
构建一个数据分析的场景
人物:小明,工龄2.5年
角色:产品经理
思考问题:解决方案架构师职业成为热门行业,小明想了解这个职业前景如何,是否适合自己,转型需要做哪些准备。
定义数据分析的步骤
如图:文章将数据分析定义为6个步骤:
1. 提出问题:带着明确的问题|目的出发,以始为终,目标导向,分析起来效率会更高;
2. 明确范围:提出问题后,需明白为达成这样的目的,至少需要哪些数据,宁多不少,避免在分析阶段时临时再补齐数据的情况
3. 获取数据:就是数据源,练习时可通过爬虫脚本、爬虫工具获取,用于工作的数据分析可从公司内部直接获取
4. 数据清洗:直接获取的数据往往不是我们想要的,或者存在异常的,需要进行转换,这将花去大量的时间
5. 模型构建:建立分析模型,以便得出最终结论
6. 数据分析:分析数据,可以通过数据统计、观察、数据可视化等形式进行分析;
STEP-1 提出问题:解决方案架构师的职位前景如何?
职位前景如何是一个大方向的问题,根据自身需求,进行问题拆解,我列取了几个拆解方向:
STEP-2 明确范围:我们需要获取哪些数据用于分析
明确了目标问题,还得明确为了得到这些问题的答案,我们需要哪些数据,由上述问题圈定数据范围如下:
最终明确所需数据范围为:岗位名称、薪资、工作经验要求、工作城市、所属行业、岗位描述、公司人数、融资情况
STEP3 获取数据:用于分析的原始数据
这里的数据的是从某第三方网站里爬的,已经基于本次演练的要求对数据进行聚合匹配,大家可以直接下载数据样本来练习;
数据已经匿去招聘网站的信息,现在的招聘网站基本都有反爬虫机制,挺繁琐,为了给大家省时间,也为了尽量不给招聘网站造成麻烦,此处的具体教程就略过,大家可直接下载样本数据练习。
百度云:链接:https://pan.baidu.com/s/10m_hPYhjyf0WCfdNBWrwKg提取码:txah
STEP-4 数据清洗:用于分析的原始数据
(1) 根据我们的选定的数据范围,去除原始数据中对分析无帮助的的数据(注意要备份原始数据),如表中的发布时间、职业标签等。
(2) 设置为筛选模式:全选>>开始>>排序和筛选 >>筛选,效果如下。列表头都多了一个下拉选项
(3) 【薪资】待遇这一列有最低工资和最高工资,且是文本格式,出于分析需求,我们需要需要的是平均工资,因此我们需要提取这一列的最低工资和最高工资数值,用于换算成平均工资,所以在【薪资】列旁新增了3列:【最低工资】【最高工资】【平均工资】。【平均工资】=(【最低工资】+【最高工资】)/2,完场平均工资的计算,涉及5个常用函数:find、left、right、mid、len,可以上网查用法,应用到这个运算练习中,基本就掌握了。
下图详细阐述了如何从文本中提取最低工资和最高工资:
通过公式计算得到的平均工资:
这个过程中,会发现有些薪资的单位用大写K,以致我们公式失效,先使用ctrl+F键替换成小写就可以应用公式了;
(4) 在城市列,信息已经具体到城市的具体工作地点的,对我们来讲,仅需要城市信息即可,其他都是多余的,因此需要进行数据处理,同样新建一个列,用公式(提取文本首个空格前的字段) =LEFT(城市列,FIND(" ",城市列)-1),即可得到下图的效果,同样的问题在【融资阶段】列也存在,请使用相同的方法处理;
(5) 我们需要对岗位的任职资格进行分析,在【职位描述】列中我们只要任职资格信息用于分析,而岗位描述信息是多余的,所以我们在表中新建一列【任职资格】,并从【职位描述】列中把相应的信息提炼出来。由于【职位描述】没有统一的叙述模板,我们根据 “要求”、“条件”、“资格”等关键词,并从关键词的位置开始,截取我们所需要的内容,公式如:=MID(职位描述列,FIND("条件",职位描述列),LEN(职位描述列)-FIND("条件",职位描述列)),
由于公式一次只能能使用一个关键词进行截取,因此需要往复操作基,操作流程:a.新建列->b.用公式根据“条件”关键词截取->点击【认知资格】列头部下拉图标筛选,仅选中#VALUE项->再往复使用“资格”、“要求”关键词筛选->剩下的无法用公式截取的异常值可以考虑手动获取或直接删除;(~。~清洗数据真的挺消耗时间的);
(6)有了这些岗位任职资格信息后,显然我们还很难从这么多的数据里看出具体的岗位要求,于是我们判断任职资格内容是否包含技能关键词,判断岗位对具体的技能是否有要求。
技能关键词:学历、英语、管理、技术、逻辑、作品、数据分析、出差、文章撰写、沟通。
公式解释:如果【任职资格列】包含相关技能的关键词,则标注为【是】,反之为【否】,具体公式:
学历要求:=IF(COUNT(FIND({"985","211"},任职资格列)),"是","否")
英语水平要求=IF(COUNT(FIND({"英语","四级","六级","CET-4","CET-6","cet-4","cet-6"},任职资格列)),"是","否")
管理能力要求=IF(COUNT(FIND({"管理经验","管理能力","团队管理"},任职资格列)),"是","否")
沟通协作能力要求=IF(COUNT(FIND({"沟通","交流","表达","口才"},任职资格列)),"是","否")
技术能力要求=IF(COUNT(FIND({"技术","开发","研发"},任职资格列)),"是","否")
逻辑思维能力要求=IF(COUNT(FIND({"逻辑","思维"},任职资格列)),"是","否")
作品要求=IF(COUNT(FIND("作品",任职资格列)),"是","否")
数据分析要求=IF(COUNT(FIND("数据分析",任职资格列)),"是","否")
出差要去=IF(COUNT(FIND("出差",任职资格列)),"是","否")
文档撰写要求=IF(COUNT(FIND({"文档","包装","撰写","书写"},任职资格列)),"是","否")
筛选效果图:
(6)数据清洗的最终效果:如下图,这就是我们在【明确范围】阶段所明确的数据,包含:岗位名称、.薪资、.工作经验、城市、岗位所属行业、岗位描述、公司人数、融资情况
STEP5 6 模型构建+数据分析
模型构建和分析是密不可分的,我们主要通过数据透视表分析,透视表的简单用法大家可以上网简单查下学习下:
接下来,对照着咱们最初提出的问题,一个一个构建分析模型并分析结果:
问题1:岗位平均工资?
新建数据透视表,我们设置行标签为【工作城市】,列标签选择【工作经验】,值选择【平均工资】,基本我们就能看到平均工资和城市、工作年限的关系了。
当然这还不够,为了数据展示方便,在列标签点击表头的下拉图标,仅选择我们关心的工作年限:1~3年、3~5年、5~10年、10年,这样做完后,还可以对自上而下对平均工资进行降序排序;右击【平均值项:平均工资】>>值显示方式>>降序排序。效果图如下:
阶段结论1:工资随着工作年限增长而增长,整体的工资水平符合转行预期;
阶段结论2:平均薪资前10为:北京、重庆、宁波、杭州、深圳、济南、上海、广州、南京、西安(该结论不成立,样本少,数据不具备代表性,下文继续论证)
问题2:城市前景
在问题1中,薪资TOP10的城市为:北京、重庆、宁波、杭州、深圳、济南、上海、广州、南京、西安,接下来继续从城市的招聘岗位数量进一步论证。把【平均工资】替换成【职位名称】,我们看到照片岗位数量TOP10的城市为:北京、深圳、上海、杭州、广州、成都、南京、西安、武汉、苏州;现在可以发现,尽管 薪资TOP10中的重庆、宁波排名很靠前,但是岗位数量实在太少,并不是一个很好的去向城市; 综合考量,最值得去的城市TOP5排名是:北京、深圳、上海、杭州,其次是广州,而且看出广州的在薪资和岗位数量和其他一线都有比较大的差距。
数据比较少的情况可以直接肉眼观察,我们同样可以设置一个可量化对比值来评测,最简单的方式是:按各个城市岗位的薪资总和来评判,当然也可以根据诉求,定制一些排名指标。
问题3:岗位技能要求?
此步骤不需要用到透视表,直接新建一个相对应的表格,应用简单的公式,就能马上看出所有岗位对具体技能的要求占比,
技能要求占比=对技能有要求的岗位数/总岗位数,
公式:COUNTIF(技能列,"是")/COUNTA(技能列),COUNTIF函数统计列中值为“是”的单元格数,COUNTA总单元格数。
从表格中我们可以分析得出,刚职业对【沟通】、【技术】、【文档】、【逻辑】能力的要求占比很高,未来想往相关方面转型,得提前做好能力养成,相反在学历、数据分析和作品上,整体要求不高。出差也占据了一定比例,是否接受能出差也是一个重要考量标准。
问题4:小公司OR大公司?
首先从不同员工规模公司发布的岗位数量维度进行分析,新建透视表,行标签设置为【公司(员工数)】,列标签【工作经验】,值为【职位名称】,为了更直观观察不同规模公司发布的岗位数量占比,我们采用百分比的形式展示(右击【计数项:职位名称】>>值显示方式>>总计的百分比),从表中我们可以看到,不同员工规模公司发布的岗位数占比均匀,说明大小公司对于这个岗位均有较强需求,其中150~500人规模的企业更需要这方面的人才。
接下来从薪资的维度分析选择大或公司的差异。透视表行标签【公司(员工数)】、列标签为【工作经验】、值为【平均工资】,下图可以明显看出,薪资随公司的规模递增,从薪资的维度来看,大公司更值得去。
以上就是本次分析的一些主要维度,其实对维度的组合数据,还可以发现一些有趣的内容,也可以将数据通过可视化的形式更直白的展示出来。
以始为终:复盘数据分析目标是否达到
回顾我们最开始提出的问题:
分析结果复盘:
个人做的一个简单的小DEMO,欢迎各位大神指导。