决策树(一)决策树概念以及相关数学知识

下面的这个流程图就是一个决策树,正方形代表的是判断模块(decision block),椭圆形代表的是终止模块(terminating block),表示已经得出结论,可以终止运行,从判断模块引出的左右箭头称作分支(branch)


这是一个假想的邮件分类系统。首先这个系统会检测发送邮件的域名地址,如果地址为myEmployer.com 则将邮件归类到“无聊时需要阅读的邮件”如果没有这个域名我们就检查邮件中的内容是不是包含了“曲棍球”的邮件。如果包含则把这些邮件放置在“需要及时处理的朋友邮件”,否则就把这些邮件归类到“无需阅读的垃圾邮件。

信息增益(information gain)
在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。

信息熵(又叫香农熵)反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。

如果一个随机变量 X 的可能取值为 X={x1,x2,…,xn},对应的概率为 p(X=xi),则随机变量 X 的信息熵为:

H(X)=−∑i=1np(xi)logp(xi)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,972评论 0 25
  • 正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示...
    凌岸_ing阅读 2,408评论 0 1
  • 一、古人教诲,金玉良言 自古以来,中国人都特别强调“管好嘴”“少说话”,“会说话”,生活中很多人与人的矛盾冲突,很...
    耘心阅读 895评论 0 0
  • 官方文档: http://kotlinlang.org/docs/reference/js-reflection....
    lioilwin阅读 471评论 0 0
  • 母亲 是裏了脚又放开了的女人 是生活在女人 无才便是德的年代 母亲 穿着藏兰色大襟衣服的模样 是这样又一次凊晰的出...
    十六娘阅读 365评论 0 0