随机森林由多颗决策树构成
问题1:如何构建森林中决策树?
设数据集中存在14条数据, 基于已有的数据集,构建新的数据集,在新的数据集基础上创建一棵树;再基于已有的数据集,构建新的数据集,在新的数据集基础上创建一棵树
有放回采样:随机从数据集中采样一条数据,得到新的数据集中一条数据,需要将这条数据放回到原有数据集,再次从原有的数据集,随机采样一条数据。操作14次,这样得到一个新的数据集
构建决策树时:特征随机抽取
两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并且具有很好得抗噪能力
问题2:每颗决策树有自己一个预测结果,如何得到整个森林的预测结果?
每颗决策树有自己一个预测结果,大家投票决定,少数服从多数原则,判定整个森林的结果