信息熵 GINI系数

熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。

信息熵的计算公式:

信息熵

条件熵:
当一个特征固定以后, 结果的不确定性即为条件熵:

条件熵

信息增益:
原熵-条件熵, 即为这个已确定变量给系统带来的稳定性增益:

信息增益

H(c) 是分类结果的gain

当然特征带来的稳定性增益越大越好。但是有个问题, 如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多,很容易造成过拟合

信息增益比:
信息增益的一个大问题就是偏向选择分支多的属性导致overfitting,信息增益比公式对value值多的情况进行的惩罚处理(尽管如此,还是要剪枝)

Infomation Gain Ratio

H(c) 是分类类别的熵, 类别越多,熵倾向于越大;同理, H(X)是变量X的Gain, 变量X的取值越多,H(X)的值也会越大, 惩罚除数越大:

H(X)

在决策树算法中,ID3使用信息增益,c4.5使用信息增益比。

Gini系数:
CART中采用了Gini系数来构造二叉决策树, 二分类问题中,近似于熵之半,但计算要简单一些:

Gini系数

D表示全样本, pi表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低,最稳定。
类似的, Gini增益:

屏幕快照 2017-07-13 21.35.14.png

参考:http://blog.csdn.net/bitcarmanlee/article/details/51488204

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,933评论 0 25
  • 转自算法杂货铺--决策树决策树和随机森林学习笔记-欢迎补充 http://www.cnblogs.com/fion...
    尧字节阅读 10,786评论 1 6
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,598评论 4 65
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 40,155评论 12 145
  • 老子《道德经》里的描述: 有物混成,先天地生。 视之不见名曰'夷’,听之不闻名曰'希’,抟之不得名曰'微’。此三者...
    无国界者阅读 519评论 0 2