决策树模型的基本思路
按照特征值对待解决的问题进行分类,根据特征的不同值构造左子树和右子树,结束条件是特征全部遍历结束或者所有子树元素属于同一个类别。
算法流程
1.判断如果分类的目标只有一个label或者只有一个特征,返回
2.否则寻找熵值最大的特征(熵是衡量信息不稳定性的一个度量指标,熵值越大包含的信息越多)
3.按照找出的特征划分数据集合,然后对于划分的左右子树继续调用此算法从1开始执行
API
1.构造决策树
可以用scikit-learn中的sklearn包
#x、y是列表 x是二维列表
from sklearn import tree
x=
y=
clf=tree.DecisionTreeClassifier(criterion="entropy")
clf=clf.fit(x,y)
clf.predict()
2可视化
采用graphviz包,安装方法见https://www.cnblogs.com/liusx0303/p/9155305.html