一、识别人才首先是处理不确定性问题
做招聘面试的HR应该会认同这样的经历。
打开应聘者简历,赫然写着TOP10名学毕业。抬头一瞧,小伙长得一表人才,精神抖擞,朝气蓬勃。HR兴趣大增。
再一看,研究方向对口,本硕连读,多次获国家奖学金。HR已经眼放绿光。
暗中观察,小伙思维敏捷,阳光开朗,真是少年才俊!这时,HR反倒有些迟疑,毕竟被当陪练、当备胎的教训不少。心里担心这么优秀,怕是招不来,来了也留不住。
仔细一聊,原来小伙家在我省,女友在我市,一门心思要来我司。HR心里确定,就是他了。
其实,毕业名校就一定是人才吗?学霸就一定是人才吗?不见得。只不过,当这些特征集于一身时,HR的经验告诉自己,这个人是人才的概率要大许多。
研究不确定性问题,当然不能仅凭感觉和经验。它一样有科学的依据和方法。机器学习中的概率模型就是其中一种。
二、机器学习在人才识别中的优势
人是难于评价的,在招聘、考核、选拔,根本没有金标准,从来没有什么标准告诉我们,谁一定是人才。我们要真正做到不唯学历、不唯资历、不唯年龄,就需要把各方面的信息和评价综合应用做决策。这项工作,一直依靠HR的经验甚至直觉。
决定人的业绩的因素中,有他的知识技能、能力素质、价值观、动机,也有外在管理环境、市场条件等,还有其他随机因素。我们暂不去做深入研究,因为它的复杂程度和高昂成本。我上学时听过几句话,大概是说:世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的。借用过来,可以解读为:优秀的人才,会表现出某些特征,而群众的智慧总会敏锐地捕捉到这些特征并留下印记,例如年度考核结果。也许这些特征是零散的、有误差甚至被造假。但在大量数据面前,它将得到合理处置。
处理大量数据,并不是人脑的强项。银行卡密码设计成6位,因为多了你可能记不住!
如果我们利用HR的经验知识,基于大量的数据,建立特定算法,让机器能按照HR的逻辑进行思考,去寻找优秀人才的特征规律,发现量化的联系,把这项交给机器来处理,至少是作为决策辅助,岂不更妙?毕竟机器的记忆力永久,内存空间、计算能力可视同无限。
简单来说,人才识别可当作有监督机器学习中的分类问题。喂给机器大量有关员工的数据,并告诉它哪些是优秀人才,哪些不是,然后给它一个全新的员工的数据,让它预测是不是优秀人才。实现的算法很多,在我的项目里,朴素贝叶斯最NB,没有之一。
三、公式推导与基本原理
1. 贝叶斯定理
由联合概率的定义可知:
所以:
上式即贝叶斯定理。多么朴实无华!
如果我们按照习惯,将员工的特征以D表示,对人才识别结果的假设以H表示,则贝叶斯公式可写为:
其中:
- 左边的是指在证据的情况下假设发生的概率,称为。
- 右边的是在没有任何证据的情况下H发生的概率,称为。
- 右边的是在该假设发生的情况下,出现该证据的概率,称为。
- 右边的是一个归一化因子,保证所有概率之和等于1。
后验概率是我们想知道的,先验概率是已知的,似然度也可以根据已知的数据去算得。
2.贝叶斯分类模型
事物具有的特征不只1个,假设H也可能是多个。设是维向量,代表事物具有的个特征,是维向量。贝叶斯公式改写为:
考虑假设是一个完备事件组,则分母可以按全概率公式展开:
其值与无关,故:
应用贝叶斯定理进行分类的原理就是,根据某实例的特征,求得最可能的假设:
在实际应用中,上式中的先验概率可以通过在训练数据集中的频率进行估计。若采用相同方法估计似然度,则通常不可行。的项数为每个特征可能取值之积与可能的假设数量相乘。例如,对10个特征的二分类问题,每个特征可取2个值,则似然度的项数将达到项(若每个特征可取3个值,则项数将达到项)!而且,要保持这一估计的合理性,同一特征组合应出现多次(例如10次),这样大的训练数据集,通常很难找到。
3. 朴素贝叶斯分类模型
名字里加上“朴素”两个字,因为它增加了一条朴素的假设:给定假设时特征之间相互条件独立。于是,联合概率可简化为每个单独特征的概率之积:
如下可求得最可能的假设:
此时,似然度的项数仅为40项。而且,同一样本的10个特征都可单独作为似然度的训练数据。这对训练数据集大小的要求极大降低。
具体到对的分布进行假设,还需进一步细分为伯努利朴素贝叶斯,多项式朴素贝叶斯和高斯朴素贝叶斯,本文不作深入探讨。
四、一个关于李雷和韩梅梅的通俗例子
今年,某高中高三班新来一位名叫李雷的同学,其他同学并不了解的任何信息,所以,只能依据该校历年一本上线率20%,估计李雷将来考上一本的可能性也是20%。这是。
接下来的一个月,班主任老师发现,李雷每天都去上自习。根据学校以往的调查,那些考上一本的学生,几乎全部天天泡自习室,那些没考上一本的学生,也有30%天天泡在自习室里。这是。
有了这个信息,在老师看来,李雷考上一本的可能性,从20%提高到了45%。这是。计算过程如下 :
证据 | 假设 | |||||
---|---|---|---|---|---|---|
每天上自习 | 考上一本 | 0.2 | 1 | 0.2 | 0.44 | 0.45 |
每天上自习 | 考不上一本 | 0.8 | 0.3 | 0.24 | 0.44 | 0.55 |
隔壁班上有个叫韩梅梅的学生,是李雷的发小,全校只有她知道,李雷原来所在的学校是省重点,那个学校的一本上线率高达40%。所以,在韩梅梅的判断里,先验概率不是其他同学所估计的20%,而是40%。这就是!
在她看来,李雷考上一本的可能性高达69%。计算过程如下:
证据 | 假设 | |||||
---|---|---|---|---|---|---|
每天上自习 | 考上一本 | 0.4 | 1 | 0.4 | 0.58 | 0.69 |
每天上自习 | 考不上一本 | 0.6 | 0.3 | 0.18 | 0.58 | 0.31 |
其实,李雷并没有告诉大家,他一直是原来学校的年级倒数第一,大名鼎鼎的学渣一枚,奋斗目标可不是什么五道口理工学院,他说英雄不问出处,自己不挑学校!天天去自习室,是因为韩梅梅也每天呆那儿!这就是!
掌握的信息越多,对事物的判断将更准确!企业的员工那么多,HR还应付得过来吗?
如何把这些原理和方法用于企业里的人才识别?效果能好吗?什么样的企业可以试试?
敬请关注,持续更新!