信用评分卡的初级探索及疑问

对于整体情况的评分常用的方法有层次分析法,模糊分析法。
近期发现金融行业常用的评分卡模型,经过初步探索以后有了一定的理解,同时也存在一些待解决的疑问。

一、有监督数据

评分卡模型是有监督的打分模型,所以训练模型的数据集需要包含特征和二分类标签。以GiveMeSomeCredit数据集为例,第一列target为我们的目标标签,1表示存在违约,0表示无违约情况。


.

二、特征提取

特征之间不宜存在强的相关关系,否则会影响算法的结果。
并不是所有特征都对target起重要作用的,通过计算IV值判断每个特征的影响权重。
评分卡算法有三个关键词:分箱、WOE、IV

2.1 分箱

分箱就是把每个特征划分为几个等级。比如年龄特征经过分箱以后为20-30、31-50、51-70、71-100五类。
分箱的目的是为了使模型更加稳定。
分箱的方法分为有监督分箱(卡方分箱、cart分箱等)和无监督分箱(等距划分、等频划分)两种,有监督分箱效果会更好。

2.2、WOE证据权重

2.3 IV信息价值

2.4、计算案例

以年龄这一特征为例,对年龄采用等频分箱后,分为九个等级:21-33、34-39、40-45、46-49、50-53、...,代入公式计算出每个层级的WOE,基于WOE计算出特征的IV值。

2.5、特征价值

显然有些特征对target的影响程度不高,不必作为模型训练参数,可以删除。


.

三、逻辑回归

把符合IV条件的特征的WOE值作为模型训练数据,target为目标值,训练逻辑回归模型。


特征
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
x = train_X.drop('target',axis = 1)
y = train_X['target']
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size = 0.3,random_state = 0)
train = pd.concat([train_y,train_x], axis =1)
test = pd.concat([test_y,test_x], axis =1)
train = train.reset_index(drop=True)
test = test.reset_index(drop=True)
lr = LogisticRegression(penalty= 'l1')
lr.fit(train_x,train_y)

回归模型验证的AUC值为0.83,效果还是不错的,标明这些特征能够比较好的预测target的值。

ROC验证

.

四、得分计算

4.1、得分计算原理

4.2、PDO和P0的定义

计算score的前提是需要自定义PDO和P0的值,这个值定义的依据是什么?应该如何科学的定义?(还不知道)

def cal_base(pdo, p0, lr):
    B = pdo / math.log(2)
    A = p0 - B / math.log(pdo)
    base = round(A + B * lr.intercept_[0], 0)
    print('base',base)

以下为PDO=100,600,700,800,900,1000;P0=5,10,20对应的基础得分。

4.4、计算每个变量每个等级的分值

#计算分值函数
def compute_score(coe, woe, factor):
    scores = []
    for w in woe:
        score = round(coe * w * factor, 0)
        scores.append(score)
    return scores

当设置PDO的值为20、p0为600,可以计算出A,B值,同时推出基础分A+BW0为: 314.0,计算出的评分卡分值如下:

五个特征及对应分组的分值

当有新的人员数据生成是,可根据评分卡判断新成员的得分。以某一批新成员数据为例,经该评分卡判断后,这批成员的最高得分为604.0,最低得分为429.0(基础分314)

新成员得分分布

五、问题小结

1、PDO、p0是随便设置的吗?
2、怎么设置阈值,超过这个阈值就接受,不超过就不接受借贷服务。
3、不同的分箱手段带来的AUC值的变动

参考资料

[1]数据集来源于kaggle平台:https://www.kaggle.com/c/GiveMeSomeCredit/data
[2]参考代码(学习资源):https://github.com/htbeker/Application_score_card/blob/master/appliaction_score_card.py
[3]分箱的优点 https://blog.csdn.net/hxcaifly/article/details/80203663
[4]评分卡理论 https://blog.csdn.net/sscc_learning/article/details/78591210

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容

  • 信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“...
    YoLean阅读 101,384评论 34 153
  • 早上工作后,健身房后,持续工作室 果然昨天不等93是对的。恶心的113
    DeathKnightR阅读 127评论 0 0
  • 真正的喜欢过四个男人 第一个 那是爱 第二个 是恋爱 第三个 是约定 第四个 是不舍
    Healer_e8b3阅读 212评论 0 0
  • 2017年3月20日,开始混迹“简书”,随笔纪念一下。
    mikeliuy阅读 112评论 0 0
  • 临近零点时,纵然知道这个特殊的时刻即到来,但却因为沉迷于网上的搞笑段子而赤果果错过了。直到朋友圈被无数新年倒计...
    Morninghere阅读 221评论 0 1