风控建模之woe分箱

一、自动分箱-粗分箱方法介绍

约定初始化分箱的个数为10。
定义:woe_{bin} = \log \frac{bad_{bin}/bad_{total}}{good_{bin}/good_{total}},bin代表箱子。
woe的含义是什么呢?我们可以想一下,假如不对变量进行分箱,即只有一箱,那么该箱的woe值是多少呢?答案是woe=0。因为,
\begin{align} \sum bad_{bin} &= bad_{total} \\ \sum good_{bin} &= good_{total} \end{align}
现在我们可以尝试理解一下若woe大于0或者woe小于0代表了什么?从上面的推导我们可以得知当箱子内的坏好比和整体坏好比(可以理解为“大盘”)相等时,woe为0。那么woe大于0,就可以理解为箱子内的坏好比是高于“大盘”的,箱子内的客户质量较差;woe小于0,是箱子内的坏好比低于“大盘”,箱子内的客户质量较好。

1.1 iv

  • 算法
    -1.初始化10箱,计算每一箱的iv值
    -2.对箱子进行两两合并,合并的原则是只能合并相邻的两箱,设合并前两箱的iv值分别是iv_1,iv_2,合并后为iv_3,计算iv_{\delta} = |iv_3-iv_1-iv_2|的值
    -3.合并iv_\delta最小的两个箱子,跳转2,直到分箱个数=目标箱数

  • 原理
    iv值越大,说明该变量越能区分好坏样本,因此在箱子合并时,应本着iv值损失最小的原则。

1.2 mapa

MAPA 单调相邻池化,也称为最大似然单调粗分类,该方法可以使得分箱得到的woe与bin呈现单调上升或单调下降的关系。

  • 算法
    -1.初始化10箱,计算每一箱的iv值
    -2.第一次循环,从最小的bin开始计算,k=1,2,3,...,10,得到序列\{br_1,...,br_{10} \};第二次循环及以后,从断点p的下一个bin开始计算,k=p+1,p+2,...,10
    woe与bin的关系单调下降:
    br_k = \sum_{i=k}^{i=10} bad_{bin_i}/(\sum_{i=k}^{i=10} bad_{bin_i}+\sum_{i=k}^{i=10} good_{bin_i})
    woe与bin的关系单调上升:
    br_k = \sum_{i=k}^{i=10} good_{bin_i}/(\sum_{i=k}^{i=10} bad_{bin_i}+\sum_{i=k}^{i=10} good_{bin_i})
    -3.得到分割断点p,跳转2,直到p=10
    p = \arg\max_{k} br_{k}
    -4.假设得到三个断点p_1=3,p_2=6,p_3=8,则最后的分箱结果为:
    \begin{align} newbin_1 &= [bin_1,bin_2,bin_3] \\ newbin_2 &= [bin_4, bin_5, bin_6] \\ newbin_3 &= [bin_7,bin_8]\\ newbin_4 &= [bin_9, bin_{10}] \end{align}
  • 原理
    因为断点p_k得到最大的br_k,则
    \begin{align} &br_k > br_j \ \ (j>k) \\ =>& \frac{B_k}{B_k+G_k} > \frac{B_j}{B_j+G_j} \\ =>& \frac{B_k}{G_k} > \frac{B_j}{G_j}\ \ \ (B、G均为正数,两边同乘(B_k+G_k)*(B_j+G_j))\\ =>& \frac{B_k/B_{total}}{G_k/G_{total}} > \frac{B_j/B_{total}}{G_j/G_{total}} , 即 woe_k>woe_j得证 \end{align}
    其中B_k = \sum_{i=k}^{i=10} bad_{bin_i}, G_k=\sum_{i=k}^{i=10} good_{bin_i}。bin小的woe值>bin大的woe值,即woe与bin之间的关系是单调下降的。同理可对单调上升的公式进行验证。

1.3 树分箱

  • 算法
    -1.使用单个自变量与因变量训练决策树模型,得到bin

  • 原理
    使用决策树模型,单棵树在学习的时候更倾向于区分好坏样本进行节点的分裂(即分箱),同iv的原理相似。

二、分箱实操

分箱是一个很细的工作,需要丰富的风控经验,在经验不足的情况下,可以参考下面的一些注意事项和原则。

  • 数据穿越检测:
    分完箱子,可以先检查下有没有iv值特别大的变量,若存在,需要判断是否有数据穿越问题(即用未来的数据预测现在)。可以注意下近24个月违约次数等违约类特征,当发生数据穿越时,该类特征的iv值会偏高。

  • 进行分箱的变量筛选原则
    金额类的不建议使用,意义不明的不用,难以解释的不用,分布奇怪的不用。最后得出来的变量最好拥有不同的维度:申请类的、违约类的、人口统计特性等。

  • 分箱原则
    1.违约类的变量分bin从0开始;
    2.若邻近箱的woe值较为接近的话,就可以合并。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容