11.C.5

1.经验熵

    随机变量X概率分布:P(X =xi) =pi, i =l,2, ... ,n(n为X的类别数)
    随机变量X的熵(信息熵):

信息熵

2.经验条件熵

条件熵H(Y|X):表示在已知随机变量X的条件下随机变量Y的不确定性,即X给定的条件下随机变量Y的条件熵。


条件熵

H(Y)又称为经验熵,H(Y | X)又称为经验条件熵。

3.信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定下D的经验条件熵H(D | A)之差。
信息增益越大,则特征A具有越强的分类能力。


信息增益

4.信息增益比

    信息増益值的大小是相对于训练数据集而言的,并没有绝对意义.在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息増益值会偏大。反之,信息増益值会偏小。使用信息増益比可以对这一问题进行校正。这是特征选择的另一准则。
    特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练数据集D关于A的值的熵HA(D)之比。


信息增益比

其中,

n为特征A所取值的个数。

5.剪枝

目标,极小化损失函数。


损失函数

其中,

信息熵

参数介绍:

设树T的叶节点个数为| T |
t为树T的某一叶节点
该叶节点上有Nt样本点;
这些样本点共分k类每类个数为Ntk个;
α>=0,为参数,控制模型对训练数据拟合度C(T)和模型复杂度
      | T |在损失函数中的占比:
        (1)α越大,树越简单,泛化越好,但训练拟合越差;
        (2)α越小,树越复杂,泛化越差,但训练拟合越好。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,939评论 0 25
  • 在C语言中,五种基本数据类型存储空间长度的排列顺序是: A)char B)char=int<=float C)ch...
    夏天再来阅读 3,421评论 0 2
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,643评论 0 6
  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 9,059评论 0 13
  • “我宁愿在坐在宝马里面哭,也不要在自行车后笑。” 这是在《非诚勿扰》里面的一个女嘉宾所说过的...
    小拾呀阅读 842评论 3 1