1.拒绝推断的由来

在做申请评分卡建模时，使用的标签是是否逾期，而逾期的前提是已经审批授信的用户。而评分卡的预测数据是授信申请用户，这里就存在“样本偏差”的问题。因为训练使用的人群只是预测人群的一部分，建立的评分卡并没有考虑授信拒绝的用户信息。因此在对总体样本评估时，会有偏差，有可能会对一些“好人”造成误伤，若能在建模时，使用拒绝样本与接收样本一起建模，就是所说的“拒绝推断”。

2.常用方法

1.实验法

在一段时间内接受所有的申请，收集数据，当用户有了风险表现再建模，但需要接受相当大的风险，并不实用。

2.直接赋值法

通过外部数据或人工对拒绝的用户打上标签，使用外部数据或人工审批的成本比较高。

3.模型扩展法

3.1简单扩展

（1）在接收样本上进行建模
（2）用此模型对拒绝样本打标签。设置一个阈值，高于阈值的为坏样本，反之为好样本。阈值的选择一般要使拒绝样本的坏账率是接受样本坏账率的两倍
（3）将有标签的拒绝样本与接受样本混合进行建模
（4）重复2,3,步直至模型参数收敛，一般迭代2至3次即可

3.2 分段扩展

上述所说的简单扩展，将拒绝样本按照某个阈值采用一刀切的方式分成好样本和坏样本，这样的切分使拒绝样本的违约分布和接受样本差别极大，而分段扩展正好修正这一缺点。步骤如下：
(1)在接受并已知好坏的样本上建模。

(2)然后为接受样本和拒绝样本打分score，下图为每个评分区间内接受样本的违约分布和拒绝样本的数量：

接下来，按照各分数段对拒绝样本打标签。一般拒绝样本的违约率高于接受样本，这里假设拒绝样本的违约率是同分数段接受样本的2倍。以0-350分数段为例，接受样本的违约率为26.7%，设置拒绝样本的违约率为53.4%，然后根据这个违约率，随机的将该分数段内的样本设置成好和坏，或者根据分数高低，高分数设置为好，低分数设置为坏，就像简单扩展法中的做法。下图为打好标签的拒绝样本的违约分布：

(3)将(2)中打好标签的拒绝样本和接受样本放在一起建模。
(4)重复(2)和(3)直至模型参数收敛。

参考链接：

拒绝推断1
拒绝推断2

（如有不同见解，望不吝指教！）

拒绝推断