今天写两个评估二分类模型的实用指标:准确率与召回率。那么什么是二分类模型呢?就是判断一个事件是否逻辑的模型,比如银行信贷产品的审批(贷或拒),肿瘤判断(良或恶)。而怎样评估这个预测模型和真实数据的差异呢?准确率和召回率就是两个重要指标。
先来看张图:
(1)准确率:如何衡量分类为正样本的“质”,即所有判别为正样本的实例中有多少是正确的(实际也是正样本),用公式表示为 TP/( TP + FP),对应到上图中竖向的椭圆。
(2)召回率:如何衡量分类为正样本的“量”,即所有真实的正样本中有多少被模型准确识别出来了(判别为正样本),用公式表示为 TP/( TP + FN),对应上图中横向的椭圆。
美国法律中证人的宣誓: Judicial oath“ Tell the truth, the whole truth, and nothing but the truth.”
宣誓中同时强调了证词的准确率( nothing but the truth)和召回率( the whole truth)。做伪证(证词的准确率低)的场景屡见不鲜,但只说部分的证词(召回率低)来误导法官的场景其实也很多,而且更具迷惑性。比如证人可以证明妻子拿花瓶打了丈夫的头部,使其致死的事实。但隐瞒丈夫之前大声威胁着要杀死妻子的事实,这对案件的审判也是极为关键的信息。
那么再引用一个例子从数据的角度说明下。周末,部门组织大家到“农家乐”体验生活。店家的池塘中有鱼 60条、虾 20只、蟹 20只。商量的结果是大家只想吃鱼。可惜店家只有一张渔网,没法一条条地把鱼捞上来。另外,由于捞上来的鱼虾蟹都会受伤,所以店家要求捞上来的不管是什么都必须下锅消费。这时,有位同事自告奋勇地捞了一网,捞上来 20条鱼、 10只蟹、 10只虾。怎么评价这次的打捞成果呢?
首先,这次捞鱼的准确率不高,只有 20/( 20 + 10 + 10) = 50%。其次,捞鱼的量也不多,召回率: 20/ 60 = 33. 3%,只捞出了 1/ 3的鱼。从准确率和召回率来评价,这一网捞得不太成功。
总之,准确率主要用以评估模型预测的质量,而召回率用以评估模型预测的完整度。