【统计学习方法】决策树

1.决策树主要解决的问题:分类问题

2.给定条件:

  • 样本集D
  • 特征集合A_k
    \forall k \in K
  • 所有分类集合N以及依据分类而划分的子集D_i
    \forall i \in N 且 D_1 \cup D_2 \cup ... \cup D_n = D

3.核心概念:熵、信息增益、信息增益比

  • 熵反映分类集合的不确定度,其中log一般以2为底,单位是比特

H(D) = - \sum_i^{n} p_i log p_i

  • 条件熵:在特征A的情况下集合D的不确定度,J表示A特征的不同取值,公式即为该特征下熵的数学期望

H(D|A) = \sum_j^J p_j H_j(D)

  • 信息增益:某一特征对整体样本预测不确定度的减少程度

g(D, A) = H(D) - H(D|A)

  • 信息增益率:由于信息增益往往趋向于选择特征值多的那一特征,故选用信息增益率作为另一种评测

g_R(D, A) = \frac{H(D) - H(D|A)}{H(D|A)}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 01 决策树定义 之前我们学习了两种分类方法:K近邻(KNN)朴素贝叶斯(Naive Bayes) 今天我们来学习...
    Sudden阅读 5,486评论 0 7
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 11,173评论 0 25
  • date: 2018-1-21决策树是一个比较经典的分类与回归的方法,包括特征选择、决策树的生成和决策树的修剪。 ...
    Joe_WQ阅读 2,187评论 0 0
  •   决策树(Decision Tree)是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对...
    殉道者之花火阅读 10,083评论 2 2
  • 一、决策树应用体验 分类   从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
    杨强AT南京阅读 4,991评论 1 3