机器学习——条件决策树

使用威斯康星州乳腺癌数据，划分训练集和测试集，比较经典决策树和条件决策树的效果。

条件决策树

算法如下：

(1) 对输出变量与每个预测变量间的关系计算p值。

(2) 选取p值最小的变量。

(3) 在因变量与被选中的变量间尝试所有可能的二元分割（通过排列检验），并选取最显著的分割。

(4) 将数据集分成两群，并对每个子群重复上述步骤。

(5) 重复直至所有分割都不显著或已到达最小节点为止。

条件推断树可由party包中的ctree()函数获得：

library(party)

fit.ctree <- ctree(class~., data=df.train)

plot(fit.ctree, main="Conditional Inference Tree")

ctree.pred <- predict(fit.ctree, df.validate, type="response")

ctree.perf <- table(df.validate$class, ctree.pred,dnn=c("Actual", "Predicted"))

ctree.perf

注：

值得注意的是，对于条件推断树来说，剪枝不是必需的，其生成过程相对更自动化一些。另外，party包也提供了许多图像参数。

下图展示了一棵条件推断树，每个节点中的阴影区域代表这个节点对应的恶性肿瘤比例。

predict()函数用来对验证集中的观测点分类。结果给出了实际类别与预测类别的交叉表。整体来看，条件决策树中验证集中的准确率是95.2381%，经典决策树的准确率是96%。

尽管在这个例子中，传统决策树和条件推断树的准确度比较相似，但有时它们可能会很不一样。

· rpart包的处理方式：

首先对所有自变量和所有分割点进行评估，最佳的选择是使分割后组内的数据更为"一致"(pure)。这里的"一致"是指组内数据的因变量取值变异较小。

rpart包对这种"一致"性的默认度量是Gini值("吉尼系数"也可以用来衡量样本数据集的纯度。

吉尼系数越小，则表示该节点可以有效的把同一类聚集在一起。反之，分割后的类别越杂乱，则吉尼系数会越大。

在决策树生成时，当用到吉尼系数这个方法时，通常会计算每一个特征的吉尼系数，接着比较各个特征下的吉尼系数，系数越小的特征越适合先作为内部节点。)。

确定停止划分的参数有很多(参见rpart.control)，确定这些参数是非常重要而微妙的，因为划分越细，模型越复杂，越容易出现过度拟合的情况，而划分过粗，又会出现拟合不足。

处理这个问题通常是使用"剪枝"（prune）方法。即先建立一个划分较细较为复杂的树模型，再根据交叉检验(Cross-Validation)的方法来估计不同"剪枝"条件下，各模型的误差，选择误差最小的树模型。

· party包的处理方式：

它的背景理论是"条件推断决策树"（conditional inference trees）：它根据统计检验来确定自变量和分割点的选择。

即先假设所有自变量与因变量均独立。再对它们进行卡方独立检验，检验P值小于阀值的自变量加入模型，相关性最强的自变量作为第一次分割的自变量。自变量选择好后，用置换检验来选择分割点。

用party包建立的决策树不需要剪枝，因为阀值就决定了模型的复杂程度。所以如何决定阀值参数是非常重要的（参见ctree_control）。较为流行的做法是取不同的参数值进行交叉检验，选择误差最小的模型参数。