前面提到了,决策树关键的问题在于选择,比如走到“每月收入=?”这个结点时,下一个结点选择“主营业务=?”还是“公司位于哪个地区=?”,这就涉及到了选择。为了解决这些问题,我们引入一些常用的算法,信息增益(决策树ID3训练算法)、增益率(决策树C4.5训练算法)、基尼指数(决策树CART训练算法)。看到这么多算法会不会有点紧张。。。说实话这些算法都大同小异。接下来我们按个去分析~~
本篇文章我们先介绍信息增益。
在介绍信息增益之前呢,我们需要先了解什么是信息什么是熵?
熵:一种事物的不确定性叫做熵。比如:我喜欢一个女生,我不确定她的态度。
什么是信息呢?
信息:消除不确定性的事物。比如:我从她闺蜜那里打听她对我的态度。信息可以调整概率,排除干扰。
有了信息之后,还会有噪音,什么是噪音呢?
噪音:不能消除某人对某件事不确定性的事物。比如:她主动和我聊天了,但是约她出来吃饭,她又不愿意。
那我们平时接触到的数据,既有噪音也有信息。我们需要用经验去判断哪些数据属于信息。