一、案例背景:
日常监控发现某款消费贷产品首逾率有逐渐升高的趋势,需要把首逾率降下来以减少产品带来的损失。主要目的是通过数据探查分析制定出可以有效降低首逾率的策略。
要区分好坏客户的变量的话可以还原这些有首逾表现的客户在申请时的数据(这个还原是指提取出客户在申请时点各个维度的数据,越多越好) ,然后利用这些数据去找出能够区分好坏客户的变量,制定策略。
这里用到单变量分析的方法,单变量分析的主要目的是筛选出好坏区分度较好的变量以便制定策略。在消金公司的日常工作中,会有专门负责爬取变量和计算加工变量数据的团队,他们在不断的去获取加工很多可能对风险控制有帮助的数据提供给我们风控团队,而我们风控人员就需要从这成千上万个变量中探查出能够控制逾期风险但同时又不会误拒很多好客户的变量。
二、python数据处理
读取数据
数据显示
看一下这个产品总体首逾率的情况,
征信查询次数分组
分组统计各个分组的情况
区间用户占比、未逾期客户数、区间首逾率
信用评级分组
对信用进行评级分组统计各个分组的情况
区间用户占比、未逾期客户数
征信次数分组的首逾率情况
3、计算提升度:
提升度=最坏分箱的首逾客户占总首逾客户的比例 /该分箱的区间客户数占比
提升度越高,说明该变量可以更有效的区分好坏客户,能够更少的误拒好客户。
例如:上表中征信总查询次数的最坏分箱提升度就是(1923/17365)/(3213/56456)=11%/5.69%=1.93 提升度这个指标一般来说都是用来一批变量分析里做相对比较,很多时候都是在有限的变量里尽可能选提升度更高的变量来做策略
计算各个指标的提升度,获取最大值所在行,argmax 也可以,但是会有警告
信用评级的提升度
4、制定策略:
通过上一步的单变量分析,我们筛出了’征信查询次数’、‘信用评级’这两个提升度最高的变量。现在我们看一下如果将这两个变量的最坏分箱的客户都拒绝之后,对整体逾期的影响。 这个影响就是指假设我们将‘征信总查询次数>=21的3213位客户全部拒绝’之后,剩下的客户逾期率相比拒绝之前的逾期率降幅是多少。