Excel数据可视化
本文主要记录使用Excel进行数据分析,所使用的数据时一份招聘网站Excel
数据分析步骤
明确问题
Q1 哪些城市的工作机会更多?
Q2 各城市的平均薪资情况?
Q3 工作经验对工资的影响程度
Q4 数据分析工作对工作经验的要求以及主要分布
一、理解数据
采集到的数据别急切计算,先观察数据
共14个字段信息包括:
城市、公司全名、公司ID、公司简称、
公司大小、公司所在商区、职位所属 、
教育要求、公司所属领域 、职位ID、
职位福利、职位名称、薪水、工作年限要求
二、数据清洗
对字段数据进行初步清洗。公司ID和职位ID是数据的唯一标示,公司全名和公司简称则重复了,只需要留一个公司名称,后续的字段信息看需求是否保留。
删除重复值
本文分析的是数据分析职位多少,所以职位ID作为处理重复值的标示
通过条件格式选择重复值,标记重复值为浅红色,自定义排序查看重复值。
通过选择数据中的删除重复值,记得点扩展全表。
检查数据是否存在重复值,通过筛选工具,发现按颜色筛选是不可选的,说明重复值全部删除。
缺失值处理
数据的缺失值很大程度上影响分析结果。在Excel中可以通过选取该列查看右下角的计数,以此判别有无缺失。
城市字段的缺失值数量 = 职位ID字段数量减去城市字段总数
通过定位条件选择空值,输入上海同时按住Ctrl+Enter,完成输入。
数据拆分排列
根据薪水列,创建出新的三列数据,分别为最低工资、最高工资、平均工资,并按降序,从大到小排列,方便后续分析。
=INT(LEFT(H2,FIND("k",H2)-1)) --最低工资
=INT(MID(H2,FIND("-",H2)+1,LEN(H2)-FIND("-",H2)-1)) --最高工资
=AVERAGE(K2:L2) --平均工资
异常值处理和数据一致化
职位名称分类出千奇百怪,我们目标是数据分析师,只筛选出带有“数据分析”、“数据运营”、“分析师”等关键词的职位名称。
=IF(COUNT(FIND({"数据分析","数据处理","分析师"},G2)),"是","否")
然后把是的数据筛选出来,复制粘贴到新表格中,重命名为数据清洁结果。
三、数据分析与可视化
创建数据透视表
Q1 哪些城市的工作机会更多?
城市为行字段,值为职位ID,降序排列处理
分析:
通过观察数据可以得出结论,数据分析岗位数量排名前四的是北京、上海、深圳、广州。
其中北京岗位数量远超第二名上海,所以北京的数据分析岗位需求属于全国最高,数据分析岗位在北上广深占据大部分。
Q2 各城市的平均薪资情况?
利用描述性分析,得到下表
数据透视表得到各个城市平均工资
分析:
从以上数据表和柱形图得出结论,统计5031个数据,其中数据分析师薪水均值为17K,中位数:15K,众数:15K,平均薪水排名前3的城市是北京、深圳、上海。
Q3 工作经验对工资的影响程度
数据透视表与折线图
分析:
从上表数据与折线图可以得出结论,数据分析师薪水随着工作年限的降低而降低,工作年限可以分为6个阶段,最低的应届毕业生平均薪水6.23K,工作1-3和3-5年平均薪水在12-17K的水平,5-10年及以上的达到20-30K的水平。
Q4 数据分析工作对工作经验的要求以及主要分布
数据透视表与饼形图
分析:
1-3年和3-5年工作年限要求占大部分,比较具有代表性,两者占比加总为68%。说明数据分析师招聘要求主要分布在1-5年的范围内。
分布报告
Q1 哪些城市的工作机会更多?
通过观察数据可以得出结论,数据分析岗位数量排名前四的是北京、上海、深圳、广州。
其中北京岗位数量远超第二名上海,所以北京的数据分析岗位需求属于全国最高,数据分析岗位在北上广深占据大部分。
Q2 各城市的平均薪资情况?
统计5031个数据,其中数据分析师薪水均值为17K,中位数:15K,众数:15K,平均薪水排名前3的城市是北京、深圳、上海。
Q3 工作经验对工资的影响程度
数据分析师薪水随着工作年限的降低而降低,工作年限可以分为6个阶段,最低的应届毕业生平均薪水6.23K,工作1-3和3-5年平均薪水在12-17K的水平,5-10年及以上的达到20-30K的水平。
Q4 数据分析工作对工作经验的要求以及主要分布
1-3年和3-5年工作年限要求占大部分,比较具有代表性,两者占比加总为68%。说明数据分析师招聘要求主要分布在1-5年的范围内。