一、随机森林
随机森林先对数据集做采样,这个过程中很多可能会出现重复采样。
随机森林就是多个决策树的组合,但每棵树采用的特征都是从样本的所有特征里随机采样的。
随机森林里的每个树或多或少都是biased的,但是最后通过bagging,往往能得到很好的预测或分类结果。
为什么?
想象一个具有完整架构的初创公司,这个公司正在招聘一些程序员。每位候选者都会经历4--5轮面试。面试官分别是:CEO、CTO、HR和一些star employee.
每位面试官考察候选者的方面肯定会有不同:CEO会考察候选者的领导力、格局;CTO会考察候选者的综合技术水平和技术修养;HR则会考察候选者的个人综合素质和与企业文化的契合度;明星员工则是一些特定技术领域的专家,他们会考察候选者在他们擅长领域的能力。
不同的面试官会考察候选者不同方面的能力,给出的决定也只是基于他们所考察的层面而做出来的,这就说明每位面试官给出的决定是有偏差的。可能CEO觉得候选者很有领导力,CTO觉得候选者综合技术水平还不错,但HR可能会觉得候选者个人综合素质这块儿不太行所以可能倾向于不给offer。但给不给offer一般都是通过面试官综合意见来决定的,所以可能支持给offer的占多数,反对给offer的占少数,这就像森林里的每棵树产生的输出,最后经过bagging,给出一个考量全面的结果。
That's the intuition of Random Forest.
二、 Kernel