变量筛选之WOE和IV

不生产知识,只做知识的搬运组装工~

WOE (Weight Of Evidence)

WOE是一种对类别特征进行编码的方式,若需要对连续值进行WOE编码,则先需要对其进行离散分箱。对于某个category特征其每个特征值的WOE计算如下:


其中,pyi 表示在此特征值下正样本 yi(label=1,在风控中一般将异常样本定义为正样本)占全体正样本 yT 的比例,而 pni 则表示此特征值下负样本ni占全体负样本 nT 的比例。

由上可见,WOEi 实际表示的是某个特征值下正样本比例负样本比例的差异。一般来说,某个特征值下正负样本差异越大,我们便越有理由认为其具有区分度。

对上面的公式做一个变换得到:


变换以后含义更明显,可以理解为当特征值下正负样本的比值与所有样本中正负样本比值的差异。这个差异是用这两个比值的比值,再取对数来进行表示,不仅考虑了局部(当前特征值下)正负样本的比例差异,还考虑了全局正负样本比例差异。差异越大,WOE越大,这个特征值对于正负样本的区分度就越大,反之亦反。此外,WOE是可以为负的,但其绝对值越大,对于分类贡献就越大。当分箱中正负样本的比例等于整体正负样本比例时,说明这个特征值没有预测能力,即WOE为0。

虽然WOE能说明某个特征值的预测能力,但是一般不会直接用其来表示特征预测能力进行特征筛选,而是使用IV值。

IV (Information Value)

IV(信息价值)也称信息量。我们在做特征选择时,一般会看五个方面:

  • 1) 变量的预测能力(贡献值);
  • 2)变量的鲁棒性(稳定性,可通过PSI系数检测);
  • 3)变量的可解释性;
  • 4)变量的可行性;
  • 5)变量的相关性;

IV即是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。类似的指标还有信息增益、基尼系数等。

对于某个类别特征中的特征值i,其IVi的计算方式如下:


可以看出来,相较于WOE,IV值多了个系数 (pyi - pni),而 pyipni 是当前特征值中样本量在全体样本中的占比,乘以这个系数以后可以理解为增加了特征的鲁棒性,防止WOE的局部过拟合(可以对比树模型中的叶节点最少样本数防止过拟合的方式,这里是同理的)。同时,此系数还保证了IV值的非负性。

根据变量在各分组上的IV值,得到整个变量的IV值为:



其中,n表示某个特征中特征值的数量。

如何根据IV值评估变量预测能力:



一般我们选择IV值大于0.02的哪些变量进入模型。如果IV值大于0.5,该变量就属于过预测变量,通常被选作分群变量,将样本拆分成多个群体,针对不同的群体分别开发模型。

对于WOE和IV更多角度的理解,可以参考:风控模型—WOE与IV指标的深入理解应用

关于WOE和IV的进一步思考

1、为什么用IV而不是WOE表示特征的预测能力?

原因有两个:1)IV能保证结果的非负性;2)IV中乘以系数后体现了当前特征值下样本数量占整体数量的比例,即当各特征值下样本分布不均匀时对其预测能力的影响。

假设一个营销响应模型中,有变量A,其取值只有两个:0和1。计算其WOE和IV如下:



为什么特征A的WOE值合计明明很高而IV值(预测能力)却比较低呢?原因就在于,A取1时,响应比例虽然很高,但这个分组的客户数太少了,占的比例太低了。虽然,如果一个客户在A这个变量上取1,那他有90%的响应可能性,但是一个客户变量A取1的可能性本身就非常的低。所以,对于样本整体来说,变量的预测能力并没有那么强。

其次我们可以看到,变量取1时,响应比达到90%,对应的WOE很高,但对应的IV却很低,原因就在于IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

2、WOE和IV的计算

对于类别型变量,可以直接进行计算,但是若某个类别中的数据量很少,则可以将尾部类别进行合并。对于连续型变量则需要先进行离散化:

  • 1)对于连续型变量,进行分箱(binning),可以选择等频、等距,或者自定义间隔;对于离散型变量,如果分箱太多,则进行分箱合并;
  • 2)统计每个分箱里的正负样本数;
  • 3)分别除以总的正样本和负样本,得到每个分箱内的边际正样本占比和边际负样本占比;
  • 4)计算每个分箱里的WOE;
  • 5)此步仅针对连续型变量,需依情况而定是否一定要满足单调性。检查每个分箱(除null分箱外)里woe值是否满足单调性,若不满足,返回step1。注意⚠️:null分箱由于有明确的业务解释,因此不需要考虑满足单调性;
  • 6)计算每个分箱里的IV,最终求和,即得到最终的IV;

此外,对于连续变量的离散方式,还可以通过决策树的分裂来进行计算,参考:基于sklearn决策树的最优分箱与IV值计算-Python实现

参考:

风控模型—WOE与IV指标的深入理解应用
机器学习-变量筛选之IV值和WOE
基于sklearn决策树的最优分箱与IV值计算-Python实现
https://contrib.scikit-learn.org/category_encoders/woe.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容