背景
最近,妹子在搞风控相关的业务,所以去了解了下风控这块的经典模型:评分卡模型。整合下来,妹子总结了一套“风险类需求”挖掘框架,希望在大家对接风控类需求时,有一定的指引作用。
目录
Part 1.表现期与坏客户定义:账龄分析,滚动率分析,迁移率分析,坏账准备进计算
Part 2.风控指标:事前,事中,事后指标
Part 3.WOE转换:分箱,计算每个区间的WOE
Part 4.转换后指标评估:IV,PSI
Part 5.fit 模型:线性模型、非线性模型
Part 6.模型评估:Lift,AUC,PSI
Part 7.模型输出概率校准:platt's scaling,Isotonic regression
Part 8.分数转换:因为前端业务要用,所以需要将概率转换成可理解的分数
Part 9.区间赋分:因为定位时解释需要,所以需要对分享后的
Part 10.上线监控:特征PSI,特征CSI,模型概率PSI,业务指标
妹子将上述步骤纳入常规的数据分析与挖掘的常规框架,大家也可以对照着看下,框架里哪些模块的知识需要补充巩固的
为方便举例,本片文章均用金融公司的风控为例(毕竟人家风控是坚持不变的基石)
Part 1表现期与坏客户定义
Part 1.1 观察期与表现期的概念
- 观察期:构造特征的时间窗口。就是时间轴左侧,主要是用来生成用户特征的时间区间,不宜太长也不宜太短,一般为1年到3年左右
- 观察点:这个点并是一个具体的时间点,而是一个时间区段,表示的是客户申请贷款的时间,用来搜集那些用来建模的客户样本,在该时间段申请的客户会是我们用来建模的样本
- 表现期:定义好坏标签的时间窗口,如果在该窗口触发坏定义,就是坏样本,反之就是好样本。时间区段,一般是6月到1年左右,一般最常用的是定义为坏样本的指标有:M3+逾期、M3以内逾期中定义为失联、欺诈、身份盗用等情况,这些需要看自身业务情况而定
Part 1.2 坏客户定义
一般咱们的正负样本都是明显可以定义的,但是风控这块并不是。那么,怎么去确定坏客户呢?这里可以通过滚动率分析进行确定。
滚动率分析就是从某个观察点之前的一段时间(观察期)的最坏的状态,向观察点之后的一段时间(表现期)的最坏的状态的发展变化情况