[机器学习]决策树(decision tree)--2.信息与噪音

前面提到了,决策树关键的问题在于选择,比如走到“每月收入=?”这个结点时,下一个结点选择“主营业务=?”还是“公司位于哪个地区=?”,这就涉及到了选择。为了解决这些问题,我们引入一些常用的算法,信息增益(决策树ID3训练算法)、增益率(决策树C4.5训练算法)、基尼指数(决策树CART训练算法)。看到这么多算法会不会有点紧张。。。说实话这些算法都大同小异。接下来我们按个去分析~~

本篇文章我们先介绍信息增益。

在介绍信息增益之前呢,我们需要先了解什么是信息什么是熵?

熵:一种事物的不确定性叫做熵。比如:我喜欢一个女生,我不确定她的态度。

什么是信息呢?

信息:消除不确定性的事物。比如:我从她闺蜜那里打听她对我的态度。信息可以调整概率,排除干扰。

有了信息之后,还会有噪音,什么是噪音呢?

噪音:不能消除某人对某件事不确定性的事物。比如:她主动和我聊天了,但是约她出来吃饭,她又不愿意。

那我们平时接触到的数据,既有噪音也有信息。我们需要用经验去判断哪些数据属于信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容