Excel是进行数据分析用得最多、最基本的工具。为了尽快掌握使用Excel做数据分析的操作,我也来找个小案例实践一下。这个小案例是对数据分析的岗位进行的分析,希望通过数据分析找到数据分析这个岗位的一些基本情况,也给自己转行多一点底气。
首先还是数据分析的步骤,一般可以分为6个:
1,明确分析的目的
2,数据准备
3,数据清洗
4,数据分析
5,数据可视化
6,分析报告
明确分析的目的
1.数据分析师的在各个城市的招聘数量和平均薪水
2.数据分析师的各个工作经验年限招聘占比
3.数据分析师的各个工作经验年限招聘的平均薪水
4.薪资前几位的公司
5.各学历的岗位数量及占比
数据准备
本次分析的数据存在Excel表中,一共有6800多条数据。在数据准备阶段我们要做的是去理解数据对每一列的意义和作用要有一个准确的理解,这样才能保证后面的数据分析工作顺利进行。
数据清洗
数据清洗的过程包括:选择子集,重命名列名,删除重复值,缺失值处理,字段分列,过滤筛选等。
(1)选择子集
在给定的数据表中,有一些列是我们数据分析的时候用不到的,所以我们通常会将用不到的隐藏掉。这里隐藏
的列有:公司全名,职位福利。
操作:选中要隐藏的列--》在列的上方右击--》选择隐藏
(2)重命名列名
非必要,根据实际情况来定。当有列名意思表达不恰当,我们可以将列明重命名为易于理解的名字。
(3)删除重复值
Excel删除重复值的方法有很多种,可以使用countif函数统计重复次数,然后删除重复项;可以用筛选的方法来删除重复的;还可以通过数据透视表来删除重复项。这里使用的是较为简单的方法,直接根据职位ID来删除重复项。删除重复项前有职位ID的数据有6875条,删除后剩下5032行了。
(4)缺失值处理
一般对缺失值的处理有4种方法,根据情况灵活使用:
① 通过人工手动补全(缺失值较少,并且可以根据其他信息确定该值)
② 删除缺失的数据(缺失数据数据对分析无大的影响)
③ 用平均值代替缺失值(数值类型)
④ 用统计模型计算出的值去代替缺失值
这里选择第一种方法来处理,选中各列,可以查看各列的记录条数,可以看到城市和岗位所属列存在商量的缺失值,在这对城市字段的缺失值我们可以通过其他的字段来判断,然后将其手动补充完整。操作:选中城市列--》点筛选--》去掉全选--》选择空白,筛选出了两条缺失值的记录,然后根据商区可以判断城市为上海,手动补全记录。对于职位所属可以用同样的方法来不全缺失值。当空缺值较多时使用Ctrl+Eneter快捷键,在不连续的单元格中同时输入同一个数据或公式时很好用。
(5)字段分列
在公司所属领域字段,有跨领域的情况存在,这时候需要将其分成两列
操作:将公司所属领域这一列复制到最后粘贴(分列后的单元格会覆盖右边的单元格)--》隐藏原公司所属领域列--》选中公司所属领域列--》点击筛选--》下一步--》选择逗号分隔(或者在其他中输入中文逗号)--》下一步--》完成,这时候可以看到被分成两列了,然后将列的名字分别改成公司所属领域1和2(防止后面在做数据透视的时候提示警告找不到数据表对应的字段名)。
薪水字段是一个范围,需要将其分为三个字段,最高薪水、最低薪水、平均薪水。
和上面的字段拆分同样的方法分列将分隔符设置为-,将薪水拆成最高薪水、最低薪水两列,加上平均薪水列。在薪水这一列中可以看到有的薪资值没有使用-分隔而是以上或是以下,这样的列都会分隔到最低薪水这一列中,所以对应的最高薪水的值就会为空值,通过筛选最高薪水中的空值可以看到具体的情况。这里的处理方式是把最高薪水赋值为最低薪水的值。
操作:取消最高薪水列的筛选--》选中列--》进入开始选项卡--》选择查找--》在下拉框中选择定位条件--》在弹出框中选择空值--》将所有的空值查找到--》在单元格中输入“=选中右边的单元格”--》按Ctrl+Enter可以将所有的为空值的最高薪水列填充最低薪水的值。
最后我们把这两列中的除数字以外的字符都替换为空就处理完成了。
接下来就是计算平均薪资了,操作:选中第一个单元格--》输入avg选中平均值计算函数--》计算出单元格的平均值--》然后点击右上角的T2,输入T2:T5032回车--》即可选中2到5032的行--》在单元格上方的函数计算栏按Ctrl+Enter即可将所有的选中的单元格的平均值计算出来。
(6)过滤筛选
在查看职位名称的数据时发现,职位中有一些不是数据分析的职位,需要把这些职位筛选过滤掉。
操作:
① 在原表【职位名称】列后插入新的列命名为“是否为数据分析职位”;
② 在下方空白单元格插入函数=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否");
③ 双击单元格右下方进行自动填充;
数据分析及可视化
上面的清洗工作做完了就到了真正的数据分析阶段了,数据分析阶段通过常用的数据透视表来进行,然后将分析结果以可视化图表的形式来表现。
操作:选中所有数据--》点击右上角的数据透视表--》生成数据透视表--》在右侧将城市和列字段拖入响应的区域里面--》在左侧会生成数据透视表的统计结果--》再点选表格中左上角行标签---其他排序选项---降序排序--计数项:城市--》最后在总计的一列的任一单元格上右击--》选择值显示方式--》选择列汇总百分比--》
数据透视表调整完成,现在需要对我们的数据进行可视化。
(1)了解各城市的数据分析岗位的招聘数量占比
这里先选中数据透视表--》复制数据透视表--》在下方以粘贴值的方式粘贴(直接在透视表创建并饼图会没有总计字段)--》选中粘贴的图表--》右击--》选择设置单元格格式--》选择数据显示格式为百分比
为了更好的展示局部站整体的百分比情况,选择用饼图来展示,从上面的透视结果看,从武汉往下面的占比都不足百分之1,我们通过复合饼图,将这些比例很小的放到其他的里面显示。
操作:选中赋值的数据表--》选择插入选项卡--》图表中点击饼图--》选择复合饼图类型--》在筛选中选中列标签总计--》应用--》后面接着设置数字显示格式--》调整饼图样式等操作
(2)各城市的各工作经验年限的招聘占比
(3)数据分析师的在各个城市的招聘数量和平均薪水
(4)数据分析师的随工作经验增长招聘的平均薪水变化趋势
(5)招聘薪资前3位的公司
(6)各学历的岗位数量及占比
结论:(1)招聘数量方面:数据分析相关岗位在各个工作年限的招聘数量都是最多的,其次是上海,另外还可以看到,北京和上海在所有的工作年限的招聘数量上分布相对均匀一些,没有相差很大。北上深杭四个城市的招聘数量占到了接近90%,说明在这些城市之外,数据分析岗位可选择性还是很低的。
(2)薪资方面:北京的平均薪资高于其他城市,上海和深圳基本持平。从工作年限随平均薪资的变化曲线可以看到,前期的薪资上涨相对缓慢,后期上涨相对较快。
(3)公司方面:招聘薪资排在前几位的公司里面分了3个层次,100K,80K和70K,可以看到,基本上是金融、科技和互联网公司。
(4)学历方面:可以看到,本科生还是占据了大多数,其次是专科生,博士的数量极其稀少。