决策树要点总结

1、决策树的学习:特征选择、决策树的生成、决策树的剪枝

2、Greedy decision tree learning(生成):

 step1: start with an empty tree

 step2: split on a feature

                  —— 选择哪个特征来分裂?

                  —— 信息增益 / 信息增益比

                  —— 注意使用信息增益会倾向于选择取值较多的特征来分裂,因此引入信息增益比进行校正

for each split of the tree:

          step3: if nothing more to, make predictions

                      —— 停止条件是什么?

                     —— 节点中的样本lablel都相同,特征都已经分裂完没得再选了

          step4: otherwise, go to step2 and continue on this split

3、如何处理连续型的特征?

将该特征的值进行排序,选取相邻两点间的均值作为候选分裂值,根据分裂后分类误差最小化选择最好的分裂值。

4、决策树的过拟合:当树的深度越来越大时,决策边界越来越复杂,训练误差越来越小,但是验证集的误差不降反升,模型泛化能力差。如何防止过拟合?

(1)early stopping:限制树的最大深度、设置分裂收益的门限值、设置节点应包含的最少data points

(2)剪枝:从底部向上,对每一个分裂节点,如果剪枝后的total cost更小,就进行剪枝。

            ——如何衡量树的复杂度?叶节点的个数L(T)

            ——Balance fit and complexity: total cost  C(T)=  Error(T)  +  lambda * L(T)

5、如何处理缺失值?

(1)skip data points with missing values / skip features with missing values

(2)fill in each missing value with a calculated guess(比如众数、平均值、中位数填充)

(3)adapt learning algorithm to be robust to missing values

6、决策树学习常用算法:ID3、C4.5、CART

ID3:树的生成算法,在决策树的各个节点上应用信息增益准则选择特征,递归地构建决策树,容易产生过拟合。

C4.5:在ID3的基础上进行了改进:

用信息增益比选择特征

增加了对连续值的处理

自动处理特征值缺失问题(丢弃有缺失值的样本)

采用后剪枝处理过拟合

CART:分类回归树,二叉树,包括生成和剪枝。

CART生成:递归地构建决策二叉树,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择。

CART剪枝:首先在生成算法产生的决策树低端开始不断剪枝,直到根节点,形成一个子树序列;然后通过交叉验证选出最优子树(平方误差/Gini指数最小)

7、决策树的优缺点

优点:易于解释;分类速度快

缺点:不支持在线学习,当新样本到来后,决策树需全部重建;容易过拟合

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 6,078评论 0 25
  • 决策树 1.概述 决策树由节点和有向边组成,节点有两种类型,内部节点和叶节点,内部节点表示一个特征或属性,叶节点表...
    Evermemo阅读 2,410评论 0 1
  • 一. 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表...
    YCzhao阅读 2,307评论 0 2
  • 一、决策树应用体验 分类   从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
    杨强AT南京阅读 1,343评论 1 3
  • Decision Trees (DTs) 是一种用来classification和regression的无参监督学...
    婉妃阅读 6,391评论 0 8

友情链接更多精彩内容