姓名:王映中 学号:20181214025 学院:广研院
转自 https://blog.csdn.net/weixin_42327752/article/details/117806076
【嵌牛导读】如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。通常特征选择的准则是信息增益或信息增益比。
【嵌牛鼻子】特征选择
【嵌牛提问】特征选择的准则是什么?
【嵌牛正文】
1 信息增益(ID3)
熵:表示随机变量不确定性的度量
H(x)=-∑_(i=1)^n▒〖p_i log〗 p_i
熵的理论解释:熵越大,随机变量不确定性越大
信息增益:
信息增益表示的是,在给定特征X的信息下,使得类Y的信息不确定性的减少程度。因此,对训练数据集(或集)D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。信息增益越大,说明特征X对Y分类的不确定性影响程度也就越大,即可以有效的分类。
一般地,熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information)。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
2 信息增益比
信息增益值的大小是相对于训练数据集而言的,并没有绝对意义。在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大。反之,信息增益值会偏小。使用信息增益比(information gain ratio)可以对这一问题进行校正。这是特征选择的另一准则。
定义:为其信息增益g(D,A)与训练数据集D关于特征A的经验熵H(D)之比
g_R (D,A)=(g(D,A))/(H_A (D))
H_A (D)=-∑_(i=1)^n▒(|D_i |)/(|D|) 〖log〗_2 (|D_i |)/(|D|),n是特征值A取值的个数