一、聚合统计分析
姓名 | 年龄 | 部门 | 薪资 | 入职日期 |
---|---|---|---|---|
张三 | 23 | 人事 | 50000 | 2023-01-31 |
李四 | 45 | IT | 80000 | 2023-02-28 |
王五 | 35 | IT | 60000 | 2023-03-31 |
赵六 | 50 | 人事 | 75000 | 2023-04-30 |
孙七 | 29 | IT | 90000 | 2023-05-31 |
周八 | 37 | 人事 | 65000 | 2023-05-31 |
1.基础操作:选择列、行及简单过滤
问题:帮我筛选年龄大于30且薪资大于63000的员工
结果:
姓名 | 年龄 | 部门 | 薪资 |
---|---|---|---|
李四 | 45 | IT | 80000 |
赵六 | 50 | 人事 | 75000 |
周八 | 37 | 人事 | 65000 |
2.数据分组与聚合
问题:按部门分组,计算每个部门的平均薪资
结果:
部门 | 薪资 |
---|---|
IT | 76666 |
人事 | 63333 |
3.多重聚合
问题:计算每个部门的薪资总和和平均薪资
结果:
部门 | sum | mean |
---|---|---|
IT | 230000 | 76666 |
人事 | 190000 | 63333 |
4.复杂聚合:多列聚合与排序
问题:按部门分组,计算每个部门的平均年龄和薪资,按薪资降序排序
结果:
部门 | 年龄 | 薪资 |
---|---|---|
IT | 36.75 | 76666 |
人事 | 35.00 | 63333 |
5.使用自定义函数聚合
问题:按部门分组,计算每个部门薪资的最大值与最小值差
结果:
部门 | 薪资差 |
---|---|
IT | 30000 |
人事 | 25000 |
6. 分组区间分析
问题:把薪资分为“低/中/高”三个等级
结果:
姓名 | 薪资 | 薪资等级 |
---|---|---|
张三 | 50000 | 低 |
李四 | 80000 | 中 |
孙七 | 90000 | 高 |
7.透视 + 条件分析
问题:比如分析不同部门中薪资等级的分布情况。
结果:
部门 | 低 | 中 | 高 |
---|---|---|---|
IT | 0 | 1 | 2 |
人事 | 2 | 1 | 0 |
8. 相关性分析(数值列间的关系)
问题:查看年龄和薪资的相关性
结果:
年龄 | 薪资 | |
---|---|---|
年龄 | 1.00 | 0.89 |
薪资 | 0.89 | 1.00 |
9.多表关联分析
问题:假设有三个表:员工表、薪资表、项目表,我们想要将它们连接在一起,得到每个员工的薪资和项目信息。
员工表:
员工ID | 姓名 |
---|---|
1 | 张三 |
2 | 李四 |
薪资表:
员工ID | 薪资 |
---|---|
1 | 50000 |
2 | 60000 |
项目表:
员工ID | 项目名称 |
---|---|
1 | 项目A |
2 | 项目B |
结果:
员工ID | 姓名 | 薪资 | 项目名称 |
---|---|---|---|
1 | 张三 | 50000 | 项目A |
2 | 李四 | 60000 | 项目B |
二、图表
1. 基本图表
折线图、柱状图、散点图、饼图、条形图等。
2.分布图和频率图
直方图、箱线图、密度图
3.比较图表
堆叠柱状图、堆叠面积图、分组柱状图
4.关系图表
热力图、气泡图、关系图