二元分类特征的选择:IV值

IV值(Information Value),即信息价值指标,是评分卡模型中的一个常见指标,在金融风控领域得到了广泛的应用,尤其是在特征选择的场景下,会经常提及这个概念。

在这之前

在风控领域,更多的是二分类问题,即好人与坏人的分类识别,这些案例其实就是我们所面对的坏人样本。对抗模型的建立,就是基于从这些样本中找到能识别坏人的特征。从某种意义上来讲,模型的好坏有时取决于分析样本的多少,其分析的越多,经验越丰富,做的模型效果越好。

在案例的分析中,可能会发现多个不同的特征,甚至不同的人分析时也会得到不同的结果。如何挑选其中最有效的特征,或者在多个特征前面,我们又应该以什么标准来衡量它们呢?

IV值是一个非常方便和好用的选择。

如何计算IV值

IV值衡量了某个特征对目标的影响程度,其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度,计算公式如下:

IV计算公式

其中Distribution Good(i)表示i分组命中白样本的占比,如果用#good(i)表示i分组命中的样本数,#good(T)表示所有的白样本总量,则 Distribution Good(i) = #good(i) / #good(T)。

因为计算过程中用的是命中黑白样本各自的比例,所以在工程实践中,一定程度上规避了黑白样本数的不同选择所带来的偏差。

案例应用和分析

在很多场景都会用到年龄和性别这两个特征,这两个特征不仅可以用来刻画用户的画像,而在风控领域中,我们还会考虑是否男性用户做坏事的更多,不同年龄的用户干坏事的几率会不会不太一样。

为了证实我们的猜想,可以计算这两个特征的IV值。下表我们计算了年龄这个特征的IV值,从表中可以看出,我们对年龄这个特征做了离散化,将其划分为4个分组,并计算了每个分组命中黑白样本在总黑白样本的占比情况,进而计算最终的IV值。

年龄特征的IV值计算

在年龄的IV值计算表格中,我们可以看出,21-30这个年龄段的分组样本数最少,但命中的黑样本缺却最多,说明这个年龄段的人最有可能作恶。而在48-60这个年龄段的分支中,样本数量并不比其他分组少,然而命中的黑样本却明显少于其他分组。直觉告诉我们,年龄特征可以很好的识别好人与坏人,而最终计算的IV值为0.46也正好说明了这点。

同样的,我们计算性别特征的IV值,如下表,性别特征分为男女两组,直观上看,两个分组的样本数相近,而且命中的黑白样本数量也很相近,看起来,性别特征的区分度并不明显,而我们计算的IV值也只有0.003.

性别特征的IV值计算

IV值的选择

从性别和年龄两个特征的案例,我们可以看出,最终计算的IV值能够比较好表达两个特征的区分度,并且跟我们的直观感受很相近。

当我们计算出特征的IV值后,该如何去解释它的预测能力。或者说,当IV值取到多大时,我们才选择这个特征。这里给出一个经验参考表

IV值 预测能力
< 0.02 无预测能力
0.02 ~ 0.1 较弱的预测能力
** 0.1 ~ 0.3 ** ** 预测能力一般 **
** 0.3 ~0.5 ** ** 较强的预测能力 **
> 0.5 可疑

由表我们可以知道,并不是IV值越大越好,当IV值大于0.5时,我们需要对这个特征打个疑问,因为它过于太好而显得不够真实。通常我们会选择IV值在0.1~0.5这个范围的特征。可能不同场景在取值的细节上会有所不同,比如某些风控团队会将IV值大于0.05的特征也纳入考虑范畴,而学术界则有观点认为选择0.1~0.3这个范围会更好。

参考文章:
http://blog.sina.com.cn/s/blog_8813a3ae0102uyo3.html
http://ucanalytics.com/blogs/information-value-and-weight-of-evidencebanking-case/

(全文完)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349