评分卡流程

一、了解业务,确定最终目的;

二、理解数据,从数据库中抽取数据/或者网上爬取数据;

        逻辑上理解数据,筛选x(y时间点之前的数据为x,时间点之后的数据不能选为x)

三、数据清洗:

        缺失值(列处理):占比超过80%(经验值,不一定),删除;

                                        占比30%~80%,分类变量;

                                        占比10%~30%,多重插补(预测或者互相填补)、分类;

                                        小于10%,固定值填补(中位数、均值、众数等)。

        注:以上数据(80%、30%、10%)为经验值,实际不一定完全按照以上数据进行缺失值处理。

        异常值:删除异常值所在的行;

                      替换为正常值(盖帽法)。

        错误值:替换成NA,当做缺失值处理。

        合表:

        长表:一个id对应一列(一个酒店多个订单,一个信用卡多个消费记录);

        宽表:一个id对应一行;

        合表:首先将长表变为宽表,再将所有相关的特征合并到一张表中。长表变宽表时,需进行分类汇总:

        • 连续变量:最小值、最大值、均值/中位数、方差/标准差、变异系数cv=方差/均值;

        • 分类变量:占比、信息熵/基尼;

        变量变换:

        偏态数据:一般是右偏数据,取log;

        变量分箱;

        衍生变量:

        • 字符型变量:提取某一特殊字符等方法;

        • 时间型变量:做时间差等方法;

四、生成y:

        定义好客户、坏客户。

        (评分卡对缺失值、异常值有包容度,默认把缺失值单独分为一类。)

五、分箱(连续变量变为分类变量,分类变量进行重分箱):

        连续变量分箱:

        无监督:自定义:有明确的业务需求时,按照业务需求分箱;

                       等宽:按照距离分类,每个等级中数据最大-最小值一致(好处:不改变数据分布);

                       等深:按照个数分类,每个等级中数据量一致;

                       信息:数据出现扎堆现象,使用聚类进行分箱;

         有监督:cart树分箱;

        分类变量重分箱:

        某个类或者某几个类的频数较少:合并类(一般情况下,无序变量合并为一类,有序变量合并到其他类);

        类别太多:无监督分箱:按业务分箱;

                          有监督分箱:cart树分箱;

        除以上两种情况,其他分类不需要重分箱。

六、WOE、IV值

        WOE(Weight of Evidence)值表示预测为1的概率大小,值越大、预测为1的概率越大;WOE值是放进logistic回归的值。WOE值可能为无穷值(0或者1的频数为0),方法:公式中的0改为0.5、或者,改对应频数,加一减一。WOE值,看趋势。

        IV(Information Value)值表示变量能提供的信息大小,表示变量的重要度。IV<0.02:对预测几乎无帮助;0.02<=IV<0.1:有一定帮助;0.1<=IV<0.3:对预测有较大帮助;IV>0.3:对预测有很大帮助;IV>0.5:慎重考虑x对y预测的有效性;IV>1:不能使用。

        注:可利用IV值筛选变量,一般评分卡中的变量为10个左右。也可用随机森林筛选变量(变量特别多,也可以先利用随机森林筛选变量,再进行分箱)。

七、优比odds

        odds = 同一类人中好客户的比率/坏客户的比率

八、回归

        ln\frac{P(y=1)}{1-P(y=1)}=\beta _{0}+\beta _{1}x_{1}   +......+\beta _{n}x_{n}

        ln(odds)=ln\frac{P(好)}{P(坏)}=ln\frac{P(y=1)}{P(y=0)}=ln\frac{P(y=1)}{1-P(y=1)} =\beta _{0}+  \beta _{1} x_{1}+......+ \beta _{n} x_{n}

九、分数

        odds越高,分数也应该越高,因此,ln(odds)与score成正比,即:

                                                score = offset + factor * ln(odds)

        需确定参数offset与factor,可以直接给定,但实际工作中一般不直接给定;通过参数pdo给定。pdo代表当odds变为原来的两倍时,score增加多少。即:

                                                score + pdo = offset + factor * ln(2 * odds)

        与上一公式相减,可得到:pdo = factor *ln2          即:factor = \frac{pdo}{ln2}

        指定一组初始的score与odds,带入即可算出offset值。至此,分数计算公式完成。

        每一个特征对应的分数:

        拆解score:

score = [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{1}x_{1}  )]+ [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{2}x_{2}  )]+......+ [\frac{offset}{n}+factor(\frac{\beta _{0} }{n}  + \beta _{n}x_{n}  )]

        对于每一个具体的特征值x_{i} 都会有对应的区间,对应的WOE值,对应的分数即为:

                                                        \frac{offset}{n}+factor (\frac{\beta _{0} }{n} +\beta _{i}WOE_{i})       

十、评估

        指定score阈值,可得到ROC曲线、KS曲线等相关指标。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容