目录
- 评分卡开发流程
- 数据的获取与整合
- 探索性数据分析
- 特征选择
- 粗分类与WOE变换
- 模型评估
- 评分卡开发
- 模型监控
- scorecard 信用评分包
- 案例
1. 评分卡开发流程
1.1.1 标准评分卡
信用评分卡主要分为两类:
- 申请评分卡
- 行为评分卡
两种评分卡开发过程都是基于同样的方案,但是两者所应用的场景是有所不同的:
申请评分卡被用于对新贷款申请进行一次性的信用评分,来决定是否贷款,贷款额度,贷款定价
行为评分卡是对于通过审批进入执行阶段的用户,即进行一定交易的用户,进行信用评分,结果用于制定清收策略
1.1.2 正常与违约
正常和违约通常不存在唯一的标准,其判定的标准往往取决于企业。但是,大多数评分卡开发都是基于60天,90天或者180天预期为标准。举个例子,标准可以定位,如果一个用户贷款逾期60天以上了,此时,定义这个用户为坏客户。
明确了正常和违约的含义之后,需要对数据进行打标签,通常使用1表示违约,0表示正常
1.1.3 标准评分卡的格式
假设评分卡使用了三个变量: 1. Age:年龄 2. TmAtAddress:当前地址的居住年限 3. EmpStatus:就业状况
这就是基于信用评分模型开发出来的信用评分卡,假设这个时候有一个人,他的基本属性如下: Age = 37 TmAtAddress = 3.5 EmpStatus = ‘全职’
这个时候,他的分值则为:485+39+36+38 = 598,这就是此用户的信用评分
1.1.4 信用评分卡的优点
- 易于理解
- 总的分值由于每一个变量的分值组合而成,非常易于解释
- 简单,非常用以实现
- 用户可以非常清楚的知道自己如何提高自己的分数
1.2 评分卡开发流程
评分卡的开发流程大致如何,其实任何一个数据挖掘项目的开发流程都由类似的开发过程:
1.3 数据准备
实际中,数据可能分散在各个地方,这个时候就需要将我们能够使用的所有的数据整合汇总起来。这一步其实不容易的,有什么数据可以用,什么数据合适用,什么数据有用,这些也许需要很多次尝试才能知道结果。
1.4 探索性分析
探索性分析是检查数据以及理解数据的一个过程,一般情况下,需要进行如下的一些分析:
- 特征的统计描述,取值范围
- 特征的违约率的分布(这一步需要对连续变量进行分箱)
- 通过卡方检验,相关性指标确定不同变量之间的关系
1.5 特征选择
如果有成百上千的建模特征,这个时候需要筛选出那些有非常好预测能力的并且有比较好解释性的变量。特征选择的方法有很多,评分卡最常用的特征选择方法就是使用IV值进行筛选,建立罗辑回归模型之后使用逐步回归进一步筛选特征。当然,还有很多机器学习的特征选择方法,比如随即森林,boruta等等
1.6 模型开发
将筛选出来的特征构建罗辑回归模型
1.7 模型验证
模型验证一般要保证四个基本要求
- 有比较好的准确度
- 模型应该稳健
- 模型必须简单
4,要有比较好的可解释性
1.8 评分卡开发
当我们建立好罗辑回归模型之后,我们需要将罗辑回归的结果转变成为评分卡的形式,具体方法会在后面讲解
1.9 模型的上线与监控
评分卡建立好了之后,需要转化成为可以实施的代码,并且确定得分的临界值,以对应所需要的业务行动。
上线好之后需要监控,应为评分卡的应用环境是在不断变化的。因此必须监控评分卡的实际表现如何,评分卡的客户群的特征变化等等