算法 | 适用场景 | 树形 | 损失函数 | 特征要求 | 特征取用 | 其他特点 |
---|---|---|---|---|---|---|
ID3 | 分类 | 多叉树 | 信息增益(缺点:偏向选择取值较多的特征) | 离散 | 单次 | |
C4.5 | 分类 | 多叉树 | 信息增益率(先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的) | 离散、连续(处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准,尝试每一种划分) | 单次 | 缺失值、剪枝防止过拟合 |
CART | 分类、回归 | 二叉树 | 分类:基尼系数(选择基尼系数最小的属性作为划分属性;与信息熵相比,基尼系数不需要对数运算,更加高效;基尼系数更偏向于连续属性,信息熵更偏向于离散属性);回归:mse | 离散、连续 | 多次 | 缺失值、剪枝防止过拟合 |
- 从样本量考虑的话,小样本建议 C4.5、大样本建议 CART。C4.5 处理过程中需对数据集进行多次扫描排序,处理成本耗时较高,而 CART 本身是一种大样本的统计方法,小样本处理下泛化误差较大
- 信息增益:划分后各子集信息熵 - 划分前信息熵,其中p为分类的比例
- 信息增益率:信息增益 / 划分前该划分特征的信息熵,其中分母中的p为特征取值的比例
- 基尼系数:其中p为分类的比例