开篇:风控评分卡知识总结


1 基本风控信息

image.png

1.1 评分卡的分类:

A卡(Application score card)申请评分卡

A卡一般可做贷款0-1年的信用分析,A卡中常用的有逻辑回归,AHP

A卡用途:

  • 是否批准
  • 是否需要提供抵押物
  • 贷款金额
  • 贷款定价

B卡(Behavior score card)行为评分卡

B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年。(多因素逻辑回归)

B卡用途:

  • 审查信用重建
  • 审查信用额度
  • 制定清收策略
  • 审查贷款定价与条件

C卡(Collection score card)催收评分卡

C卡则对数据要求更大,需加入催收后客户反应等属性数据。(多因素逻辑回归)
评分卡计算:在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。

评分卡计算过程

1.2 评分卡开发流程:

评分卡开发流程

2 数据获取与整合

2.1 变量类型

  1. 原始变量
  2. 衍生变量
  3. 分析变量(类似于模型分)

2.2 数据来源:

  • 人口统计数据
  • 征信机构数据与外部评分
  • 交易纪录(申请纪录):频率,汇总值

3 数据描述

3.1 单变量:

  • 数据分布:众数,平均值,中位数,变化率,分位数,极值(直接最大最小值/线性拟合/聚类)
  • 数据集中度检测
  • 数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常

如果极值占比较高,需要分析是否要分多类

3.1 相关性指标

  • 皮尔逊系数
  • 斯皮尔曼相关系数
  • 皮尔逊卡方统计量
  • 似然比检验统计量
  • f检验(连续变量与类别之间的关联性)
  • 基尼方差
  • 熵方差
  • 信息值(iv)

iv值判断标准

  • 小于 0.02: unpredictive
  • 0.02 to 0.1: weak
  • 0.1 to 0.3: medium
  • 0.3 to 0.5: strong
  • 大于 0.5: suspicious

pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例

woe:

\begin{equation}\begin{split} woe^{(i)}&=ln( \frac { py^{(i)} } {pn^{(i)} } ) \end{split}\end{equation}

iv:

\begin{equation}\begin{split} iv&=sum(( { py^{(i)} } - {pn^{(i)} })*woe^{(i)}) \end{split}\end{equation}

等距分箱
卡方分箱
最优分箱:决策树分箱
这里应该是基于不同的指标会作出不同的分箱,基于ks的,或者给予gini系数,信息熵的。

3.2 样本抽样

  • 分层抽样
  • 随机抽样
  • 对称抽样

3.3 数据预处理

  • 关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
  • 筛选变量的常用方法
    • 随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。

好的特征需要具备哪些优势?
稳定性高,区分度高,差异性大,符合业务逻辑,具备可解释性。

缺失值补充

  • 建立随机森林模型进行填补
  • 删除
  • 补0/补极小值

异常值处理

  • 大于2倍方差的做删除

数据分布分析

  • 查看是否符合高斯分布
  • 特征之间是否有强关联性。

3.4 模型样本预处理

  • 分层抽样
  • 随机抽样
  • 对称抽样

3.5 模型筛选

逻辑回归

优点:简单、稳定、可解释、技术成熟、易于监测和部署
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高

决策树

优点:对数据质量要求不高,易解释
缺点:准确度不高

其他元模型

组合模型

优点:准确度高,稳定性强,泛化能力强,不易过拟合
缺点:不易解释,部署困难,计算量大

3.5 模型评价方式:

psi

psi计算过程

其他稳定性指标:评分迁移矩阵、kendall 秩相关系数

其他:

ks(10等分):
TP:真实为1且预测为1的数目
FN:真实为1且预测为0的数目
FP:真实为0的且预测为1的数目
TN:真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)

十等分之后的: ks=Max(TPR-FPR)

1、区分度:主要有KS和GINI指标,理解KS的定义及用法
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
3、稳定性:主要有PSI指标,理解PSI的定义及用法

auc和ks的关系?
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。

拿逻辑回归举例,模型训练完成之后每个样本都会得到一个类概率值(注意是类似的类),把样本按这个类概率值排序后分成10等份,每一份单独计算它的真正率和假正率,然后计算累计概率值,

  • 用真正率和假正率的累计做为坐标画出来的就是ROC曲线,
  • 用10等分做为横坐标,用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是KS曲线。

AUC值就是ROC曲线下放的面积值,而ks值就是ks曲线中两条曲线之间的最大间隔距离

ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。

roc,auc,

纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)

lift
洛伦兹曲线

评分卡刻度:

image.png
image.png

3.6 评分卡的监测与部署:

image.png
  • 最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
  • 生成一个pmml文件,给开发小哥调用
  • 公司自己做的决策引擎,或者是租的,自己写变量逻辑上线
  • 用flask或者Django自己写接口上线

验收:测试、等级划分、额度设计、风险定价、ABtest的设计等等

3.7 拒绝演绎:

仅适用于申请评分卡
建立申请评分卡的时候,

4. 风控模型与模型评价指标

粗略的看:

  • 贷前阶段:欺诈检测,准入模型,授信模型,定价模型。
  • 贷中阶段:额度管理,流失预警。
  • 贷后阶段:失联人检测。

策略体系:

  • 欺诈规则:
  • 准入规则:
  • 风险名单:黑名单,失信名单等
  • 运营商规则:
  • 网贷规则:多头,白户,共债

规则类型:

  • 拒绝策略:中一条直接拒绝
  • 申请评分卡:基于用户的资质好坏,区分用户的好坏基准卡
  • 风险定价模型:不同的客群利率不同
  • 收益评分模型:基于客户收益状况评分

5. 互金网络下风控系统体系:

  • 策略体系:反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
  • 人工智能模型:包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。

6. 常见问题:

  • 样本不均衡:
  • 幸存者偏差:多类模型筛选过后导致,需要使用无偏样本进行修正。在该场景下,迁移学习、增量学习(Incremental Learning)、生成对抗网络(GenerativeAdversative Nets,GAN)、高斯聚类模型(GaussianMixture Model,GMM)、半监督学习等都有一定应用
  • 网络挖掘:用于团伙识别与失联人找回

参考资料:
信用评分卡模型
信用风险与评分卡研究

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353