决策树

1.决策树定义

❶通过对训练样本的学习,建立分类规则,然后依据分类规则,对新样本数据进行分类预测。

❷属于有监督学习

❸优缺点。优点:决策树易于理解和实现、决策树可以处理数值型和非数值型数据(连续和种类字段)。缺点:如果各类别样本数量差别较大,数据增益偏向量大的特征(此种情况模型质量较低);容易过拟合;忽略了属性间的相关性。


2.决策树的理解

❶决策树的过程案例_相亲决策树,见下图所示。

决策树类似于流程图过程,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,如此递归对实例进行测试并分配,最终到达叶子节点,即该实例被分到节节点的类中。

❷决策树算法相关概念

信息熵:信息熵表示随机变量的不确定度。对于一组数据来讲,数据越随机,信息熵越大,不确定性越低,信息熵越小。

条件熵:条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性

信息增益:以某特征划分数据集前后的熵的差值

信息增益率:特征A对训练数据集D的信息增益比定义为:其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比

基尼系数:基尼系数(Gini),也被称为基尼不纯度,表示在样本集合中一个随机选中的样本被分错的概率

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  •   决策树(Decision Tree)是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对...
    殉道者之花火阅读 10,223评论 2 2
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 11,187评论 0 25
  • 决策树是一种基本分类与回归方法。其不要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的...
    rosyxiao阅读 4,733评论 0 0
  • 1.前言 决策树是一种基本的分类和回归方法。决策树呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。采用...
    胜利主义章北海阅读 7,521评论 0 0
  • 一、决策树应用体验 分类   从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
    杨强AT南京阅读 5,022评论 1 3

友情链接更多精彩内容