分类学习器的构建

目录

  1. 变量选择
  2. 变量筛选
  3. 模型选择
  4. 变量预处理
  5. 模型设计和训练
  6. 模型优化
  7. 模型检验

1、特征选择

在NLP模型、机器视觉模型等中,一般不存在变量选择。而在消费信用模型中,属于客户的可用特征可以非常多,有些明显没有用,有些需要重新构造/转换。

2、特征工程(变量筛选和处理)

这里主要有两个工作要做:

  • 剔除无效、冗余等变量。一个特征变量,如果它跟因变量之间没有因果关系或者贡献很少,或者说如果它跟其他确定的特征变量高度相关甚至存在共线性,或者说该变量在时间上不稳定时,我们应该考虑剔除该变量。
  • 变量预处理。根据模型的要求和泛化性能的考虑,拿到变量后一般都要再处理,如连续变量的分箱、有序因子变量d额重新切分、分类变量的编码(哑变量、onehot编码、WOE编码等)等。

这一节我们主要介绍第一种,事实上剔除变量的方法也可以用于变量的粗分类,例如拿到的年龄数据是以10岁分段的,我们可以将它粗分类为两个类别(如30岁以下、30岁以上),那至于选用哪个点就可以用一些特征选择的方法了。

2.1 单变量检验法

单变量检验法有两种目的,变量剔除和自变量的离散化处理(已经离散的也需要进行重新划分)

单变量检验法实际上是在研究一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来

因为是分类系统,相关系数一般很糟糕。常用的有两个方法:卡方统计量和信息量。

设样本集为X(一共m个特征和N个样本),因变量为Y(一共K类),固定单个特征A(取值为a1、a2、····aM),设nij=特征A第i个类别中第j类的样本数,则特征A和因变量的列联表如下:

第1类 第2类 ····· 第K类 合计
a1 n11 n12 ···· n1K
a2 n21 n22 ···· n2K
··· ··· ··· ··· ···
aM nM1 nM2 ···· nMK
总体 N

*注:混淆矩阵等实际上就是预测分类变量和实际分类变量之间的列联表

卡方统计量

卡方检验常用语两个变量之间的显著性检验,较大的卡方统计量表明因变量(标签,输出)跟特征之间存在显著的差异。

假定fo、fe分别为观察频数和期望频数,则卡方统计量为:

当我们计算了所有变量的卡方统计量后,可以用p值来筛选变量,也可以用衍生的V相关系数来筛选:

其中R代表列联表的行数,C代表列联表的列数。

WOE(证据权重)和IV(信息量)

这两个指标仅限二分类任务。

考虑居住条件和好坏人数量之间的关系,下表给出了它们的列联表(观察频数表):

居住条件 / 因变量 好人数量 坏人数量
自有住房 570 30
租房 150 50
其他 180 20
总数 900 100

用概率论来考虑该问题。给定单个样本数据$x \in X$,有条件概率p(G|x)和p(B|x)表示给定特定数据下好人和坏人的概率,且满足:

在处理二分类的概率问题时,我们更喜欢考虑事件的发生比率(事件发生的概率除以事件不发生的概率):
令$f(x|G)$和$f(x|B)$为条件概率密度函数,同时运用贝叶斯法,可以推出
其中
总体发生比率(在上面的例子中p_G=0.9,p_B=0.1),它反映了还没有任何关于借款人的已知信息时,我们对该借款人是好人的可能性认知。而I(x)称为信息比率,其大于1时,表明属性x的借款人比总体中一般借款人更可能是豪恩,其自然对数ln(I(x))也是评估向量x携带信息的一种有效途径,我们将这个数值称之为x提供的证据权重(weights of evidence,WOE)为

如果想考察特征x区分好坏借款人的表现,我们可以用特征的均值之差:

然而这个差并没有考虑到某些x值的信息量远高于其他的情况,于是我们可以用权重之差来判断:
这被称为散度,也等价于相对熵(进行了对称处理)。将散度离散化便得到信息量(IV)。如果一个特征有K个类别,且用$g_k$和$b_k$表示第k类中好人和坏人的数量,用$n_G$和$n_B$表示好人和坏人的数量,则IV可以表示为:

以上面的居住条件为例,计算结果如下表:

该特征的信息量IV=0.615,一般IV值越大,该特征越要保留。

这里WOE是信息比率I(x)的对数,WOE的值越大代表对应的变量对“是好人”的贡献就越大,反之,越小就代表对应的变量对“是坏人”的贡献越大。所以WOE值可以作为居住条件的一种编码方式。

信息增益、信息增益率
  • :随机变量X的熵被定义为:
    其中p(x)=Pr(X=x)是X的密度函数。熵度量了随机变量X的不确定性程度,如8种均匀可能需要log28=3个字节来存储。
  • 联合熵条件熵
    两个随机变量的联合熵被定义为:

    条件熵被定义为:
    另外可以证明:

  • 相对熵(K-L散度):相对熵是两个随机分布之间距离的度量。在统计学中,它对应的是似然比的对数期望。相对上D(p||q)度量当真实分布为p而假定分布为q时的无效性。

    相对熵总是非负的,注意到其并不对程,也不满足三角不等式,所以严格来讲,它并不能称为“距离”,所以实际使用中,我们可以作对称化处理:
    K-L散度是一个非常不错的“距离”,在下一节我们还会继续讲这个指标,但是要注意K-L散度是无界的。

  • 信息增益(互信息):互信息是一个随机变量包含另一个随机变量信息量的度量,也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。

    注意到互信息(信息增益)关于X和Y是对称的,即H(X)-H(X|Y)=H(Y)-H(Y|X)。而且它与相对熵存在如下等价关系:
    从该等价式可以看出,当X和Y之间几乎相互独立,即相互所包含的信息很少时,联合分布p(x,y)与乘积分布p(x)p(y)之间的K-L距离相应的也很小。

  • 信息增益比

  • 基尼指数(Gini)

2.3 多变量检验法

在回归方程中,用向前或者向后的逐步回归方式

[1]. 利用LendingClub数据建模
[2]. LendingClub数据集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容