1 基本风控信息
1.1 评分卡的分类:
A卡(Application score card)申请评分卡
A卡一般可做贷款0-1年的信用分析,A卡中常用的有逻辑回归,AHP
A卡用途:
- 是否批准
- 是否需要提供抵押物
- 贷款金额
- 贷款定价
B卡(Behavior score card)行为评分卡
B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年。(多因素逻辑回归)
B卡用途:
- 审查信用重建
- 审查信用额度
- 制定清收策略
- 审查贷款定价与条件
C卡(Collection score card)催收评分卡
C卡则对数据要求更大,需加入催收后客户反应等属性数据。(多因素逻辑回归)
评分卡计算:在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。
1.2 评分卡开发流程:
2 数据获取与整合
2.1 变量类型
- 原始变量
- 衍生变量
- 分析变量(类似于模型分)
2.2 数据来源:
- 人口统计数据
- 征信机构数据与外部评分
- 交易纪录(申请纪录):频率,汇总值
3 数据描述
3.1 单变量:
- 数据分布:众数,平均值,中位数,变化率,分位数,极值(直接最大最小值/线性拟合/聚类)
- 数据集中度检测
- 数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常
如果极值占比较高,需要分析是否要分多类
3.1 相关性指标
- 皮尔逊系数
- 斯皮尔曼相关系数
- 皮尔逊卡方统计量
- 似然比检验统计量
- f检验(连续变量与类别之间的关联性)
- 基尼方差
- 熵方差
- 信息值(iv)
iv值判断标准
- 小于 0.02: unpredictive
- 0.02 to 0.1: weak
- 0.1 to 0.3: medium
- 0.3 to 0.5: strong
- 大于 0.5: suspicious
pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例
woe:
iv:
等距分箱
卡方分箱
最优分箱:决策树分箱
这里应该是基于不同的指标会作出不同的分箱,基于ks的,或者给予gini系数,信息熵的。
3.2 样本抽样
- 分层抽样
- 随机抽样
- 对称抽样
3.3 数据预处理
- 关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
- 筛选变量的常用方法
- 随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
好的特征需要具备哪些优势?
稳定性高,区分度高,差异性大,符合业务逻辑,具备可解释性。
缺失值补充
- 建立随机森林模型进行填补
- 删除
- 补0/补极小值
异常值处理
- 大于2倍方差的做删除
数据分布分析
- 查看是否符合高斯分布
- 特征之间是否有强关联性。
3.4 模型样本预处理
- 分层抽样
- 随机抽样
- 对称抽样
3.5 模型筛选
逻辑回归
优点:简单、稳定、可解释、技术成熟、易于监测和部署
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
决策树
优点:对数据质量要求不高,易解释
缺点:准确度不高
其他元模型
组合模型
优点:准确度高,稳定性强,泛化能力强,不易过拟合
缺点:不易解释,部署困难,计算量大
3.5 模型评价方式:
psi
其他稳定性指标:评分迁移矩阵、kendall 秩相关系数
其他:
ks(10等分):
TP:真实为1且预测为1的数目
FN:真实为1且预测为0的数目
FP:真实为0的且预测为1的数目
TN:真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)
十等分之后的: ks=Max(TPR-FPR)
1、区分度:主要有KS和GINI指标,理解KS的定义及用法
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
3、稳定性:主要有PSI指标,理解PSI的定义及用法
auc和ks的关系?
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
拿逻辑回归举例,模型训练完成之后每个样本都会得到一个类概率值(注意是类似的类),把样本按这个类概率值排序后分成10等份,每一份单独计算它的真正率和假正率,然后计算累计概率值,
- 用真正率和假正率的累计做为坐标画出来的就是ROC曲线,
- 用10等分做为横坐标,用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是KS曲线。
AUC值就是ROC曲线下放的面积值,而ks值就是ks曲线中两条曲线之间的最大间隔距离
ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。
roc,auc,
纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)
lift
洛伦兹曲线
评分卡刻度:
3.6 评分卡的监测与部署:
- 最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
- 生成一个pmml文件,给开发小哥调用
- 公司自己做的决策引擎,或者是租的,自己写变量逻辑上线
- 用flask或者Django自己写接口上线
验收:测试、等级划分、额度设计、风险定价、ABtest的设计等等
3.7 拒绝演绎:
仅适用于申请评分卡
建立申请评分卡的时候,
4. 风控模型与模型评价指标
粗略的看:
- 贷前阶段:欺诈检测,准入模型,授信模型,定价模型。
- 贷中阶段:额度管理,流失预警。
- 贷后阶段:失联人检测。
策略体系:
- 欺诈规则:
- 准入规则:
- 风险名单:黑名单,失信名单等
- 运营商规则:
- 网贷规则:多头,白户,共债
规则类型:
- 拒绝策略:中一条直接拒绝
- 申请评分卡:基于用户的资质好坏,区分用户的好坏基准卡
- 风险定价模型:不同的客群利率不同
- 收益评分模型:基于客户收益状况评分
5. 互金网络下风控系统体系:
- 策略体系:反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
- 人工智能模型:包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。
6. 常见问题:
- 样本不均衡:
- 幸存者偏差:多类模型筛选过后导致,需要使用无偏样本进行修正。在该场景下,迁移学习、增量学习(Incremental Learning)、生成对抗网络(GenerativeAdversative Nets,GAN)、高斯聚类模型(GaussianMixture Model,GMM)、半监督学习等都有一定应用
- 网络挖掘:用于团伙识别与失联人找回
参考资料:
信用评分卡模型
信用风险与评分卡研究