随机森林

0. 决策树的不足

在机器学习方法中,任何一次实现都是基于一个特定的数据集,而这个数据集可能只是训练集中的一次随机抽样,所以才有了所谓的10折交叉验证等方法。在不使用该方法的情况下,很多机器学习算法受到了这种随机性的影响,因此,得到的模型也具有一定的偶然性。而随机森林通过与该方式结合,在一定程度提高了准确性和推广能力。


1. 自助法

自助法

2. 随机森林

2.1 算法流程

  1. 对样本数据进行自举法重采样,得到多个样本集,即:每次从原来的N个训练样本中又放回的随机抽取N个样本(包括可能重复的样本)。
  2. 利用重采样样本集作为训练样本构造一个决策树,在构造决策树的过程中,每次从所有候选特征中随机选择m个特征(不一定要考虑所有的特征,这是与普通决策树的区别所在),作为当前节点下决策的备选特征,从该特征中进行划分。
  3. 重复步骤1,,2,得到一定的数量的决策树后,通过一种方法对这些树的输出进行投票,得到票数最多的类作为最终的输出结果。

2.2 模型评估与参数选择

在第一节中提到,自助法大概有1/3的数据无法被用于训练,于是,我们可通过包外估计对算流程步骤2中的m值进行选择,确定最佳的m值。


3. 缺失数据

一般来说,缺失的特征可能会出现在两种情况下:

  1. 在训练集中有部分数据的特征值缺失。
  2. 在待分类的样本中,有部分数据的特征值缺失。

3.1 训练数据特征缺失

1. 根据完整样本填充数据

  • 离散值:选取该特征中所占比例较大的特征数据。
  • 连续值:取该特征的中位数或是均值。
    在这里插入图片描述

    在上图中,第四条数据的Blocked Arteries和Weight特征缺失。根据前三条数据的信息,在特征Blocked ArteriesNo最多,Weight中位数为180,因此,填补数据为:
    在这里插入图片描述

2. 构造随机森林,并计算所有数据在随机森林模型上的输出结果,构造邻近矩阵(proximity)记录每条数据之间的相似程度。[图片上传失败...(image-8b7e94-1569722308083)]

由于第三条数据和第四条数据结束与同一叶子节点,于是构造的邻近矩阵为:
[图片上传失败...(image-c1d711-1569722308083)]自助法
同样的,对于第二个决策树,假设有:
[图片上传失败...(image-9b562b-1569722308083)]
于是更新矩阵为:
[图片上传失败...(image-38150e-1569722308083)]
依次类推:
假设经过10个决策树后,邻近矩阵的结果为:
[图片上传失败...(image-7b05f5-1569722308083)]
相似矩阵中每个元素均除以决策树个数后,结果如下:
[图片上传失败...(image-22284-1569722308083)]

3. 计算每个特征值的权重

特征值的权重计算公式为:
w_i^j=p_i*\frac{M_i}{\sum M_i} \tag{3.1}
在公式(3.1)中,w_i^j代表第j个特征的第i个特征值,p_i代表第i个特征值在完整数据中所占的比例,M_i代表第i个特征的近似程度。
举个栗子:在特征Blocked Arteries中,有yesno两个特征值,其中:
对于yes来说:

在这里插入图片描述

对于no来说:
在这里插入图片描述

所以:,,因此,为no的可能性更大些。
同样的,对于Weight有:
在这里插入图片描述

最后的插补数据结果如下:
在这里插入图片描述

4. 重复步骤1~3,直到所有数据不再变化为止。

3.2 测试数据缺失

[图片上传失败...(image-e4172e-1569722308083)]

1. 假定标签值的取值

在这里插入图片描述

2. 假定特征值的取值

在这里插入图片描述

3.在模型中运行该数据,统计结果

在决策树中,输出结果即可确定目标值的缺失特征值以及标签值

4. 参考文献

  • 《西瓜书》
  • 《模式识别(第三版)》
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 装袋(Bagging) 全称Bootstrap Aggregation的集成算法。每个基学习器都会对训练集进行有放...
    dingtom阅读 1,796评论 0 1
  • 1.随机森林使用背景 1.1随机森林定义 随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个...
    山的那边是什么_阅读 28,132评论 0 28
  • 概念 决策树(Decision Tree)分为两大类,回归树(Regression Decision Tree)和...
    HRain阅读 5,678评论 1 30
  • 在妈妈的学校里,有一片美丽的燕津湖,虽然我不常去那,但是它给我留下了深刻的印象。至于来历嘛,取自“燕乃河北...
    zhjz阅读 181评论 0 0
  • 我望着镜子里的自己,妩媚的咖啡色卷发,正红色口红,微挑的眉宇下,只有那一双晶亮的眼眸,里面盛满泪水。 刚刚见过前任...
    转椅嗜好者阅读 648评论 1 8

友情链接更多精彩内容