首先树模型根据根据基于决策树和回归树可分为分类模型和回归模型。
对于分类和回归问题来说,不同的地方在于,对回归树来说可以不单单是取叶子节点的均值作为预测值,也可以取叶子节点的中位数或者别的一些合理的统计值来作为预测值。(自己想的)
树模型是基于特征进行特征空间的划分(基于信息熵之类的),然后对划分好的叶子节点进行赋值。不会超过已有的最大值也不会低于已有的最小值。对于预测趋势的问题来说(例如天池竞赛阿里流行音乐预测),并不能很好的代表趋势走项,最多是在已有的值区间内进行波动。
接下来说说随机森林的随机性,第一是在选择特征的时候进行无放回的提取,二是在进行样本取样的时候进行有放回的抽样(在抽样次数趋于无穷时只能抽取0.63左右的原始样本)。这在一定程度上增强了抗干扰能力,但在样本不均衡的情况下还是会产生过拟合的情况,此时就要调整样本权重或者对数据进行重采样。
总而言之,树模型就是一系列的规则,不过是机器依据一些目标选取的最优或者局部最优的规则而已。