系统讲解了DT 算法理论
主要内容:
1、决策树算法
2、Entroy
3、Information Gain
例图
DT 一般都是非线性分界面

sklearn 运行效果图

参数的作用
min_samples_split

一直区分到集合只有两个元素,可以忽略

min_samples_split 太小导致overfitting


Entropy

数学推倒



Information Gain
信息增益,,主要用来算多个feature时使用哪个feature 来分割界面






DT算法的计算核心一般是计算各个feature 的information gain 决定采用哪个feature 分割平面以及怎样分割。
DT 算法的优缺点:
easy use
图形化比较直观
容易overfiting