风控评估指标浅析与实现 - KS、WOE、IV

1. 前言

风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。

2. KS

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之,便是好人的程度与坏人的程度之差。

ks_i = \left |\frac{cumulative\:good_i}{total} - \frac{cumulative\:bad_i}{total}\right |\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下,KS 越高,越能反映特征或者模型的风险区分能力,完美的信用分分布是正态分布的。现实状态下,大于 0.9 就过于高了, 这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说, KS 在 0.3 以上时才勉强可用于生产,风险区分效果一般。

同时,KS 的后期观测也相当重要,在后续的监控中, KS 若出现持续下降, 有可能是市场发生了变化,客群发生变化,或者模型本身不太稳定,所以训练模型时训练集与验证集的对比也相当重要,两者 KS 差距较大,说明模型过拟合,或泛化能力不强。

3. WOE

WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。

woe_i = ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。也可转换后得到,

woe_i = ln(\frac{bad_i}{good_i} / \frac{bad\: total}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。

同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该特征的分布将会是单调的。

通过 WOE 变换,同时保持 WOE 曲线具备单调性,带来的好处在于特征值与 y 值具备正(负)相关性,例如我们定义坏用户为 1 时,特征值越大,预测为坏人的概率将越高。

4. IV

IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*woe_i\:,\:\:\:\:\:i=(1,2,...,10)

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

整个特征的 IV 值则为每段 IV 值之和,可得

iv=\sum_{i}^{n}iv_i\:,\:\:\:\:\:i=(1,2,...,10)

当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WOE 值很大,但是该分段的个体数占总体数量中很小的比例,这 WOE 便不具备整体的代表性,因为其对于整体的贡献太小,IV 值也会很小。因此,使用 IV 值作为判断预测能力的指标。

4. python 实现

常常需要计算这些指标,对于每次都要跑大批量的特征,感觉异常烦躁,提高效率还是有必要,把这些指标整合起来写了个库,调用出结果。后来更懒了,写了层图形界面套上去,鼠标点一点就完事,及其舒适。果真懒才是人类进步的发动机。
源码: https://github.com/lianxiangtao/KS_IV


如果文章对你有所帮助,请不要吝啬手中的赞哦。心情会美美哒。
WX: xianyu_splash,本公众号用于记录本人学习历程、基础技术,分享日常灵感、优质工具,欢迎关注!共同进步!

5. 参考资料

  1. 风控模型—WOE与IV指标的深入理解应用
  2. 【详解】银行信用评分卡中的WOE在干什么?
  3. 评分卡模型中的IV和WOE详解
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352