项目背景:
近期某公司内部员工辞职率有增长的趋势,为了确保公司业务不受到员工辞职的影响,需对员工辞职原因展开分析,采取措施降低员工的辞职率,保证公司的正常运转。
目的:
1.辞职原因相关性分析,降低离职率
2.建模预测员工是否离职,提前做好应对
核心发现:
1.已离职的员工普遍对公司的满意程度低
2.造成员工对公司满意程度低的原因可能包括:没有得到期望的晋升和涨薪、工作时间长压力大
建议:
1.找出对公司贡献度高(绩效高、工作时间长、完成项目多)的员工进行约谈,并给予适度的激励
2.适当降低员工的工作时长
3.采取一些员工关怀方面的措施,提高他们的满意度
数据分析推理过程:
假设员工离职主要与以下两个原因相关:
(1)没有得到期望的薪酬和晋升
(2)对公司的总体满意程度低
从数据库中取出数据,共有14999条记录,10个字段
从数据的描述性分析可以看出:
(1)员工对公司的平均满意度为0.61
(2)员工的平均绩效为0.71
(3)员工完成项目数最多的是7个,最少的是2个,平均为3.8个
(4)平均月工作时长为201个小时(正常为176小时/月),标准差为49.94,说明员工间工作时长差别较大,部分员工存在过度加班的情况
(5)员工的工作年限在2-10年之间,平均工龄为3.5年
(6)只有14.46的员工在工作中出过差错
(7)5年内升职的员工只有2.13%
绘制热力图对可能引起员工辞职的因素进行相关性分析,从图中可以看出:
(1)完成项目数、平均每月工作时长、绩效评估,这三者两两之间存在着较高的正相关关系
(2)完成项目数、平均每月工作时长、绩效评估与升职加薪之间没有相关关系
(3)离职率与薪酬水平、离职率与满意程度之间呈高度负相关的关系
未离职的员工满意度在0.7左右,已离职的满意度在0.4左右
离职员工中,薪资水平低的人占大多数,薪资水平高的人几乎没有
离职员工的绩效评估明显高于未离职员工,优秀员工可能没有在职位和薪酬得到激励
离职员工的犯错概率低于未离职员工的犯错概率
这是一个很明显的双峰分布,说明离职员工普遍是平均每月工作时间少的(150小时左右)和工作时间多的(250小时左右)
对于已离职的员工,在绩效评估和满意度的散射矩阵中,可以划分成3个不同的群体,分别代表3种不同类型的员工:
集群1,优秀但对公司没有归属感:满意度低于0.2,绩效评估大于0.75,他们的绩效水平高,但也可能代表他们工作压力大,工作时间长,得不到理想的升职加薪机会
集群2,不优秀且对公司没有归属感:满意度在0.35-0.45之间,绩效评估在0.58以下,能力一般,且对公司归属感不强,他们的离职对于公司来说损失不大
集群3,优秀且对公司有归属感:满意度在0.7-1之间,满意程度大于0.8,这可能意味着这个集群的员工对公司而言是最理想的,他们离开的原因可能是因为找到了另外的工作机会
针对集群1和集群3的员工提高他们对公司的满意度,降低他们的离职率尤为重要
预测建模:
针对员工的数据建模,预测出哪些员工可能会离职,根据情况及时采取措施挽留员工或者提前进行招聘工作,减少对公司运作的影响
将数据字段分成两部分,“是否离职”作为因变量,其余字段作为“自变量”进行建模,取80%的数据作为训练集,20%的数据作为测试集
可以看出模型的准确率为79.6%
接下来加入正则化系数C=25.52908068,防止模型出现过拟合的情况,采用10折交叉验证的方法,尝试提高模型的精度,可以看出模型的精度较调试前提高了0.1%
注:10折交叉验证(10-fold cross validation),将数据集分成十份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,以提高模型的精度
最后验证模型对预测员工离职的准确率和召回率。可以得到模型对员工离职的准确率和召回率分别为62%和40%,平均准确率和平均召回率分别为78%和80%