摘要:本次实战题目和数据选取自公众号“秦路”,是针对数据分析的招聘岗位的需求分析。数据抓取时间是2016.11月,抓取的是当时各大招聘网站有关数据分析的岗位数据。以下是个人的实操过程。
数据分析的大忌是不知道分析方向和目的,拿着一堆数据不知所措。一切数据分析都是以业务为核心目的的,以数据为目的的数据分析都是耍流氓~~
数据用来解决什么问题的:
比如说:
是进行汇总统计制作成报表?
是进行数据可视化,作为一张信息图?
是验证某一类业务假设?
是希望提高某一个指标的KPI?
......
PS:经过后面的思考,发现下图中行业&公司一栏里的两个问题其实是重复的,“什么行业”和“哪类公司”其实含义是一样的。
补充一个问题:公司越大,对数据分析师的需求越大吗?
数据的缺失值很大程度上会影响分析结果。引起缺失的原因有很多,例如技术,爬虫没有完全抓去,埋点没有做好等等,例如本身的缺失,该岗位的HR没有填写(关于数据缺失处理,希望以后能写一篇菜鸟学习文章出来)
一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,只差了一个字,但是对机器和程序而言,它们依旧会把它们认成是两家。这会影响最后的计数、数据透视的结果。
脏数据是指分析过程中很讨厌的环节。例如乱码,错位(),重复值,未匹配数据(数据不完整性),加密数据等。能影响到分析结果的都是脏数据,没有一致化也可以算。
数据标准结构,就是将特殊结构的数据进行转换和规整。
数据清洗
1、首先是清洗薪资。
温馨小tips:excel如何批量自动填充单元格。
http://jingyan.baidu.com/article/546ae1853742b11149f28cb2.html
2、接下来把companyLabelList,businessZones,positionAdvantage进行分列。
可以看到companyLabelList标签都是固定的内容,而positionLables、positionAdvantage、businessZones虽然也可用分列法做,但是这三个字段都是由HR自己填写的,所以你会发现这会有各种不统一的描述。
这些自定义的内容,并没有特别大的分析价值。
温馨小tips:excel只替换某一列数据
http://jingyan.baidu.com/article/fcb5aff7aa222cedaa4a718e.html
总结篇
数据分析的思路:
一、明确数据分析的目的
二、观察数据
1、了解数据背后的含义
2、看看这些数据之间有什么联系
3、明确要保留/分析哪些数据
三、数据清洗
四、分析结论