1.决策树主要解决的问题:分类问题 2.给定条件: 样本集 特征集合 所有分类集合以及依据分类而划分的子集 3.核心概念:熵、信息增益、信息增益比 熵反映分类集合的不确定度,其中log一般以2为底,单位是比特 条件熵:在特征A的情况下集合的不确定度,表示A特征的不同取值,公式即为该特征下熵的数学期望 信息增益:某一特征对整体样本预测不确定度的减少程度 信息增益率:由于信息增益往往趋向于选择特征值多的那一特征,故选用信息增益率作为另一种评测