1.项目目标
在任何一家企业里,员工队伍的稳定性对于企业的发展都非常的重要。所以通过模型预测员工离职的价值就日益凸显出来了,该模型可以大大地提高HR部门的工作效率,同时也可以降低因人员变动而需要额外支出的人力成本。当然员工离职的原因都是多方面的,并非一个简单的数学模型所能预测的。在此,我们只是通过这个案例来掌握机器学习建模的完整里程。完成的问题解决流程请参考附件中的Notebook文档。
2.数据集简介
该数据集共收集了14999条员工数据,每位员工都记录了12个指标,其中11个为特征指标,1个为标签指标。该数据集非常的干净,没有任何异常值和缺失值,可以直接来进行建模。
3.数据集中各列特征说明
Keywords | Meanning | type | value range |
---|---|---|---|
satisfaction_level | 员工满意度 | 数值型 | 0~1 |
last_evalution | 员工绩效 | 数值型 | 0~1 |
number_probject | 参与的项目数量 | 数值型 | 2~1 |
average_monthly_hours | 每月平均工作时间 | 数值型 | 96~310 |
time_spend_company | 工作年限 | 数值型 | 2~10 |
work_accident | 工作中是否出现差错 | 数值型 | 0和1 |
left | 是否离职 | 数值型 | 0和1 |
promotion_last_5years | 过去五年是否得到提升 | 数值型 | 0和1 |
department | 部门 | object | 类别值 |
salary | 薪资 | object | 类别值 |
4.流程简介
- 读取员工离职数据集
- 数据探索性分析
- 建立决策树模型和支持向量机模型
- 评估两个模型的效果
- 项目总结
数据集和源代码
员工离职预测