整体思路分为八步:确定业务目标→数据获取→数据检验→变量选择(数据清洗)→变量分组→分组变量WOE转化→数据输入模型算法→模型评估
一、确定业务目标
确定业务目标必须建立在对业务场景熟悉的前提下,并结合到具体的业务需求后再确认业务目标。
二、数据获取
数据获取有多种方式,即可以从自有的业务系统中获取,也可以通过爬虫的技术手段获取外部数据,当然,也可以人工录入数据。数据获取时可以根据实际情况选择样本比例(尽量跟总体样本比例相近?)进行获取。
三、数据检验
数据检验包括检验数据的唯一性(排除重复数据)、样本完整性(确保样本变量的分布不会显著偏离总体的分布)、范围以及取值、异常值(过大、过小、记录出错等)。
四、自变量的选择(数据清洗)
简单来说,就是选择具有预测能力的自变量。在做自变量的选择时,需要做数据的探索(这要依靠个人经验和统计学的基础知识),如查看各个自变量的统计特征和分布、自变量之间或自变量和因变量之间是否存在相关性、极端值异常值缺失值的识别和处理。对于数值型变量而言,可以剔除某些标准差或变异系数较小的变量,对于分类型变量则可以剔除某个值占比在90%以上的自变量。自变量之间的相关性用皮尔森相关系数衡量就可以,而分类型自变量则可以通过概率比、基尼方差、信息值等来衡量。
五、变量分组
分组的基本原则:组内差异小,组间差异大;分组数量不宜过大或过小,建议数值型变量分为4~8组。
分组的意义:变量分组后,可以获得简洁高效的规则,且极大地加快模型算法的运行速度,提高分类精度,同时也可以以更简单的方法来处理数值型变量的异常值。特别对于数值型自变量更要进行变量分组,除非自变量跟因变量本身就是呈线性关系的。
分类型自变量如何分组:如果分类型自变量的类别超过12个或者变量内各取值的分布差异较大,则建议进行变量分组以降低基数。具体可以通过变量同类别合并、冗余合并(出现频率较小的变量直接合并成)、以及最优分群(决策树的方法,分类到最大分组数则停止决策树运行)。
数值型自变量如何分组:等高或等距分组(确定是没有考虑因变量的关联性),等距分组是指将连续变量的取值范围分为预先确定数量的等宽度区间,等高分组是是指分为每组频数相同的区间。最优分段,则是通过决策树进行分组。
检验分组后的对模型的影响:数值型自变量分组前后利用R方对比检验即可,分组后用组间方差加组内方差即可,分类型自变量怎么检验就不知道了。其实应该可以先WOE转化后再检验R方。
六、分组变量WOE证据权重转化
详细地址:http://blog.csdn.net/kevin7658/article/details/50780391,
其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。
从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
对这个公式做一个简单变换,可以得到:
变换以后WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
七、输入模型
输入模型前应根据具体的业务场景、数据分布特征等因素选择模型。
八、模型检验
ROC曲线、洛伦兹曲线、F值等等