是否学习的决策过程解释:
椭圆框内:是决策树的特征(根据特征来分类),比如<女票>;
表情图:是决策树的类别(决策树是用来分类的),比如<学习>;
有向箭头:是决策树特征的属性值,比如<需要>;
一、整体直观的了解:
决策树算法构成:
- 决策树的构造
- ①决策树的特征选择
- ②决策树的生成
- ③决策树的剪枝过程
- 决策树的决策(遍历)
决策树算法构成的具体解释:
首先,在《是否学习的决策过程》入门案例过程中,重点难点在于怎么构造决策树。这又分为三部份:第一部分①决策树的特征选择,决策树本身是个分类决策做决定的过程,那么对我们做决策有影响(术语叫:信息增益Or信息增益比)的事物就可能作为特征,所以,女票必须是特征;
第二部分②决策树的生成,当我们完成特征选择后,怎么把这些特征排成一颗树呢?哪个特征应该放在树的顶端Or树的中部Or树的底部呢?按照常识,当然是按照重要性(术语叫:信息增益大小)大小来排布了。而女票是个重要性(术语叫:信息增益)最大,所以排第一没毛病!
第三部分③决策树的剪枝:经过②决策树的生成,我们得到的只是一个片面的局部的决策树模型,他只能实现局部最优化,也就是可能在人生的某一时期实现最优化,但不能确保整个人生的最优化。因此为了实现人生损失的最小化(术语叫:损失函数的最小化Or正则化的极大似然估计),就必须进行第三部分的剪枝过程。
其次,根据决策树构成三部分的不同而组成了不同的决策树算法。
决策树本身是个分类过程,当然有着不同的分法,这就像不同的人拥有着不同的价值观,也就对同一事物(女票第一还是吃鸡第一)有着不同的评价。在业界内,一般有着这样三种不同的评价(女票第一还是吃鸡第一)算法。
决策树的算法
- CART算法--1984年
- ID3算法--1986年
- C4.5算法--1993年(机器学习十大算法之一)
算法的不同具体点说就是决策树组成的三大部分不同,也许是特征选择不同、也许是决策树的生成不同、也许是决策的剪枝不同。最后,当我们通过决策树的算法构造好了一颗决策树后,我们就可以进行决策了。决策树的决策过程简单点说就是决策树的遍历。
具体微观的学习:
这部分主要是上面所说的三大算法的数学学习,侧重点在于C4.5算法(机器学习十大算法之一)
首先,了解一下决策树的CART算法、ID3算法、C4.5算法的同与不同。我们知道,决策树的算法由三大部分构成,那么算法的不同当然是三大部分的不同。
其次,来看看三类算法的具体理论、案例、总结。
CART算法:CART算法的具体理论、案例、总结
ID3算法:ID3算法的具体理论、案例、总结
C4.5算法:C4.5算法的具体理论、案例、总结
目前在自学机器学习相关的内容,由于作者水平有限,文中难免有错误和不当之处,欢迎专家和读者给予批评指正。