1.拒绝推断的由来
在做申请评分卡建模时,使用的标签是是否逾期,而逾期的前提是已经审批授信的用户。而评分卡的预测数据是授信申请用户,这里就存在“样本偏差”的问题。因为训练使用的人群只是预测人群的一部分,建立的评分卡并没有考虑授信拒绝的用户信息。因此在对总体样本评估时,会有偏差,有可能会对一些“好人”造成误伤,若能在建模时,使用拒绝样本与接收样本一起建模,就是所说的“拒绝推断”。2.常用方法
1.实验法
在一段时间内接受所有的申请,收集数据,当用户有了风险表现再建模,但需要接受相当大的风险,并不实用。
2.直接赋值法
通过外部数据或人工对拒绝的用户打上标签,使用外部数据或人工审批的成本比较高。
3.模型扩展法
3.1简单扩展
(1)在接收样本上进行建模
(2)用此模型对拒绝样本打标签。设置一个阈值,高于阈值的为坏样本,反之为好样本。阈值的选择一般要使拒绝样本的坏账率是接受样本坏账率的两倍
(3)将有标签的拒绝样本与接受样本混合进行建模
(4)重复2,3,步直至模型参数收敛,一般迭代2至3次即可
3.2 分段扩展
上述所说的简单扩展,将拒绝样本按照某个阈值采用一刀切的方式分成好样本和坏样本,这样的切分使拒绝样本的违约分布和接受样本差别极大,而分段扩展正好修正这一缺点。步骤如下:
(1)在接受并已知好坏的样本上建模。
接下来,按照各分数段对拒绝样本打标签。一般拒绝样本的违约率高于接受样本,这里假设拒绝样本的违约率是同分数段接受样本的2倍。以0-350分数段为例,接受样本的违约率为26.7%,设置拒绝样本的违约率为53.4%,然后根据这个违约率,随机的将该分数段内的样本设置成好和坏,或者根据分数高低,高分数设置为好,低分数设置为坏,就像简单扩展法中的做法。下图为打好标签的拒绝样本的违约分布:
(3)将(2)中打好标签的拒绝样本和接受样本放在一起建模。
(4)重复(2)和(3)直至模型参数收敛。
参考链接:
(如有不同见解,望不吝指教!)