决策树

决策树的构造

        我们需要解决的第一个问题,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。

        划分数据集的最大原则是:将无序的数据变得更加有序。我们可以使用多种方法划分数据集,每种方法各有优缺点。组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学。

熵定义为信息的期望值:

                                                    其中p(xi)是选择该分类的概率

为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下列公式得到:


其中n是分类的数目
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,950评论 0 25
  • 这里开始机器学习的笔记记录。今天的这篇是一个分类方法--决策树。 决策树优点:计算复杂度不高,输出结果易于理解,对...
    七号萝卜阅读 6,501评论 0 18
  • 正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示...
    凌岸_ing阅读 2,405评论 0 1
  • 决策树原理介绍 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构,是通过一系列规则对数据进行分类的过程,...
    Jlan阅读 382评论 0 2
  • 【如果】 文/刀笔春秋 如果可以 在花开的季节里 看你满脸笑意 如果可以 在漫山的星光里 听你灿烂银铃 如果可以 ...
    师舒阅读 166评论 0 0