一、数据检验
1 主键的唯一性
2 样本完整性。样本能否代表总体,各变量的分布会不会偏离总体太远
3 范围和取值。连续变量的范围是否在一定的预期范围内,分类变量的取值是否在取维表里。
4 缺失值。了解缺失值的分布,和原因。
5 错误值。异常值是指明显偏离数据集的观测值,如过大、 过小、 负值等数据。 异常值可能是由二记彔错误引起的,也可能是真实数据。 因此要梱验异常值出现的原因,幵相应的处理异常值。
二、样本选择
1 正负样本比例悬殊(正样本远少于负样本),直接使用全量数据会影响最终的模型规则。一般要通过正样本过采样,负样本正采样来解决。
2 海量数据建模效率低,如超过100万条时,每一个建模步骤都耗时较长。一般控制在10-50万条,通过分层随机抽样,并控制正负样本比例。
三、数据预处理
1. 离群值/异常值。A、 将离群值、异常值调整为距离最近的正常值。例如,如果离群值定义为 3 个标准差以外,则可用 3 个标准差的最大值戒最小值替换;B、直接剔除离群值或异常值。C、用空值 NULL 来替代离群值或异常值。
2. 处理缺失值。A、将缺失值调整为某个固定值。 如均值、 中间值戒一个指定的常数。B、将缺失值调整为一个服从正态分布的随机值。C、若缺失太多且该变量不是很重要,且删除该变量。
3. 构建衍生变量。衍生发量来源二原始数据,有较明确的业务涵义。 比如客户消费的环比、累计欠费次数等。 这些发量可能表现出比原始发量更好的预测力,更适应二建模。
四、数据探索
单个候选变量及变量之间的统计特征(包括均值,最值等)及分布。统计每个候选预测变量的分布及其基本描述统计量,对二数值型变量明确其最大值、最小值、均值、标准差等指标,对二分类变量明确各类别的分布。
五、变量选择
变量选择的主要目的是寻找对输出变量预测有积极贡献的重要变量。 变量的重要性可以从两个斱面联合考察: 第一,从变量本身考察;第二,从输入变量与输出变量的相关性考察。
第一、从变量本身考察:1.数值型变量:如果数值型变量的变异系数或者标准差小二某个标准值,则认为该变量应规为不重要的发量;对二分类型变量而言,如果变量中的某个值的占比大二 90%,则应认为该发量不重要。
第二、从输入变量与输出变量的相关性角度考察。
对分类变量来说,有三种方式。
1.卡方统计量。2. 信息值 3.概率比
假设 x 为分类发量,包含 c 种叏值,x1,……,xc,y 为 2 分发量,叏值为 1,x 不 y 的列联表如下:
1. 卡方统计量
2. 信息值
信息值参考如下:
卡方和信息值的示例如下:
3. 概率值。如果两个变量都是二元变量,即列联表的一个特殊情况,可以通过概率比来梱测其相关性。
当概率值取值为 1,或从上下两个斱向趋近于1 时,可以判断分类变量 x 相对于响应变量 y 的概率不存在差异,即两个变量之间不存在相关性。
对数值型变量来说,一方面可以考察输入变量之间的相关性,相关性强的变量只保留一个。一方面可以考察输入变量和输出变量的相关性,保留相关性强的输入变量。相关性指标是皮尔逊相关系数。
六、变量分组
1. 定义:变量分组是指把分类变量中的某些类别合并为一组,或者把数值型变量离散化分为多组。
2.原则:组内差异最小,组间差异最大;每个分段有实际意义,如30-50分的分组,比28-54的分组有意义;分组数量不宜过少,也不宜过多,过少信息丢失,过多信息冗余,建议将数值型变量分为 4-8 个组。
3.意义:A 、 提高模型运行效率;提升模型精度(尤其是数值型,例如敏感度跟费用的关系是,敏感度先随着费用的增加和加强,到某个值后随着费用的增加而减弱,如果直接用数值型变量放入模型,可能会得出敏感度和费用负相关的结论,而分组后的变量可以精确的描述这种关系); B、 变量分组后,可以以更简单的斱法来处理数值型发量的异常值和异常类别。C、分组的目的在二使数据规格化,从而可以实现不同量级之间数据的比较。
4.分类变量的分组方法。当分类变量的类别大于 12 个,或者变量内各取值的分布差异较大时,减低基数就变得非常重要。
1)变量合并:将相同含义的变量合幵,这种斱法的优点是,基于各类别变量的含义易于解释和判断,但是由于没有考虑默认的目标变量和被合并的类别之间的关联性,可能导致预测力降低。
2) 冗余合并:将出现频率较小的类别合幵为一个新的类别,并给予一个合适的标识,如“ other”。
3)最优分群:另一种分类方法是基于决策树模型的分裂找到最优的分组方案,通过合并变量的类别使预测力指标(皮尔森卡方统计量、 基尼方差、 熵方差、 信息值等)最大化。以含有 12 个取值的分类发量为例,介绍降低基数的主要思想。首先假设所有类别都属于一个组;然后,基于使某预测力指标最大的原则找出最优的二分割点,这样被选中的分组方案中所有备选分组中的预测力指标都能达到最大值;然后在每个子类别中重复上一步骤,当达到最大分组个数时停止继续分割。
5. 数值型变量的分组方法:
1)等距分组:数值型变量的取值范围被分为预先确定数量的等宽度区间。
2)最优分段:数值型变量的最优分段相当于分类发量的最优分群。实际上,最优分段和最优分群的算法都是基于相同的原理和方法。在数值型发量的最优分段中,先被分为大量的初始宽度相等的段,比如 100 个。 然后将这些段看成是名义变量的类,然后再基于分类变量最优分群的算法计算数值型变量的最优分段。然而,在这种情况下,需要在分组中考虑到分段范围的取值顺序,以保持分段变量保持在一个连续刻度上。